Papers·2개월 전

합성 터미널 환경으로 CLI 에이전트 학습 — Qwen 32B, Terminal Bench 1.0/2.0/Pro 각각 29.06%/18.54%/34.00% pass@1

LiteCoder-Terminal-Gen 파이프라인으로 합성 터미널 훈련 환경을 자동 생성, Qwen 계열 모델을 SFT 및 DMPO로 학습해 Terminal Bench에서 큰 폭의 성능 향상을 달성했습니다. 32B 모델은 Terminal Bench 1.0/2.0/Pro에서 각각 29.06%/18.54%/34.00% pass@1을 기록했으며, RL 환경에서의 DMPO가 추가 개선을 가져왔습니다. 단, 모든 환경이 합성 데이터로만 구성되어 실제 CLI 환경과의 괴리가 있을 수 있다는 점은 감안해야 합니다.

합성 터미널 환경만으로 CLI 에이전트를 학습해 Terminal Bench에서 유의미한 성능을 보인 연구입니다.

핵심 결론

벤치마크 — Qwen 32B 모델이 Terminal Bench 1.0/2.0/Pro에서 각각 29.06%/18.54%/34.00% pass@1을 기록, 베이스 대비 큰 폭 향상.
데이터 — LiteCoder-Terminal-SFT: 10개 도메인 11,255개 전문가 궤적. LiteCoder-Terminal-RL: 602개 검증 가능 환경.

방법

합성 파이프라인 — LiteCoder-Terminal-Gen: 도메인 명세만으로 실행·검증 가능한 터미널 환경을 자동 생성. 외부 저장소 의존성 제로.
훈련 — SFT로 기본 능력 확보 후, DMPO(Direct Multi-turn Preference Optimization)로 선호도 최적화 적용.

한계·조건

합성 vs 실제 — 모든 환경이 합성 데이터로 구성되어 실제 CLI 환경과의 차이(gap)가 존재할 가능성.
재현성 — 코드와 데이터셋은 공개 예정이나 현재는 논문과 abstract만 확인 가능.

편집자 한 줄

합성 환경만으로도 복잡한 CLI 태스크를 학습할 수 있다는 점을 체계적으로 보여준 연구입니다. 실제 환경에서의 일반화가 관건이겠네요.

#cli-agent
#synthetic-data
#qwen
#terminal-bench
#rlhf

Xiaoxuan Peng

원문 보기 →

합성 터미널 환경으로 CLI 에이전트 학습 — Qwen 32B, Terminal Bench 1.0/2.0/Pro 각각 29.06%/18.54%/34.00% pass@1

핵심 결론

방법

한계·조건

Comments