Papers·어제
CLI-Universe: 터미널 에이전트 학습 데이터 합성 엔진 — Qwen3-32B fine-tuning 으로 Terminal-Bench 33.4%

NJU-LINK Lab 이 터미널 에이전트 태스크를 위한 고품질 합성 데이터 생성 엔진 CLI-Universe 를 공개했습니다. 다차원 능력 분류 체계와 증거 기반 심층 연구로 후보를 생성하고, Dockerized 환경에서 다단계 검증 파이프라인을 거쳐 약 2/3 의 후보를 폐기합니다. 이렇게 만든 CLI-Universe-6K (6,000 trajectories) 로 Qwen3-32B 를 fine-tuning 하여 Terminal-Bench 2.0 에서 33.4% 를 기록, 32B 이하 오픈소스 모델 중 SOTA 를 달성했고 일부 300B+ 모델도 능가했습니다.
터미널 에이전트 학습 데이터의 부족 문제를 해결하기 위해, NJU-LINK Lab 이 원칙적인 합성 엔진 CLI-Universe 를 제안했습니다.
핵심 결론
- 벤치마크 — Terminal-Bench 2.0 에서 Qwen3-32B fine-tuning 모델이 33.4% 달성, 32B 이하 오픈소스 모델 중 최고 성능.
- 비교 — 일부 300B+ 모델 (예: GPT-4, Claude 3.5 Sonnet) 을 능가하며 데이터 효율성을 입증했습니다.
방법
- 생성 파이프라인 — 도메인, 스킬 유형, 능력, 엔지니어링 축으로 구성된 다차원 분류 체계에서 후보를 샘플링합니다.
- 검증 — 각 후보는 실제 기술 자료를 바탕으로 한 증거 기반 심층 연구를 거쳐 Dockerized 환경에서 실행 가능성 검증을 받습니다.
- 필터링 — 루브릭 기반 테스트, 힌트 조건부 필터링, fail-to-pass 검사를 포함한 다단계 검증을 통해 약 2/3 의 후보가 폐기됩니다.
한계·조건
- 데이터 규모 — CLI-Universe-6K 는 6,000 trajectories 로, 대규모 데이터셋 대비 상대적으로 작은 규모입니다.
- 환경 — 모든 태스크는 Dockerized 환경에서 실행되므로 실제 시스템과의 차이가 있을 수 있습니다.
- 코드 — 논문 발표 시점 기준 코드 및 데이터셋 공개 여부는 명시되지 않았습니다.
편집자 한 줄
데이터 합성 파이프라인의 엄격한 필터링 비율(2/3 폐기)이 인상적입니다. 다만 32B 모델에 특화된 결과인지, 다른 backbone 에서도 일반화될지는 추가 실험이 필요해 보입니다.
- #terminal-agent
- #data-synthesis
- #qwen
- #nju
NJU-LINK Lab