Papers·1주 전
EvoTrainer: LLM 정책과 학습 하네스를 공동 진화시키는 자율 RL 프레임워크 — SWE 벤치에서 사람 설계 RL 대비 최대 1.4x 개선

TongyiLab 연구팀이 LLM 정책뿐 아니라 학습 하네스(보상 설계, 진단, 개입)도 함께 진화시키는 자율 RL 프레임워크 EvoTrainer를 공개했습니다. 수학 추론, 경쟁 프로그래밍, 저장소 수준 SWE 벤치에서 동일 데이터·코드베이스 대비 사람 설계 RL과 동등 이상의 성능을 달성했으며, 특히 장기 에이전트 태스크(SWE)에서 가장 큰 폭으로 개선되었습니다. 다만 8×A100 환경 기준이며, 코드는 아직 공개되지 않았습니다.
TongyiLab이 LLM 정책과 학습 하네스를 함께 진화시키는 자율 RL 프레임워크 EvoTrainer를 제안했습니다.
핵심 결론
- 태스크 — 수학 추론(GSM8K, MATH), 경쟁 프로그래밍(Codeforces), 저장소 수준 SWE(SWE-bench) 평가.
- 성능 — 동일 데이터·코드베이스·평가 프로토콜에서 사람 설계 RL과 동등 이상, SWE-bench에서 최대 1.4x 개선.
- 특이점 — 자율 진단이 무효한 고득점 브랜치를 승격시키는 것을 방지하는 점이 흥미롭습니다.
방법
- 공동 진화 — 정책과 하네스(보상 함수, 진단 규칙, 개입 전략)를 empirical feedback 기반으로 함께 진화.
- 파이프라인 — rollout 진단 → 진단 수정 → 개입 backtest → 재사용 가능한 스킬 축적의 순환 구조.
- 각 도메인마다 유지된 전략이 달라지며, 재사용 스킬이 이후 탐색을 형성하는 점이 관찰되었습니다.
한계·조건
- 환경 — 벤치는 8×A100 기준, 단일 GPU에서의 이득은 검증되지 않았습니다.
- 코드 — 현재 Hugging Face Papers 페이지에서 abstract만 공개, 코드 및 상세 구현은 비공개.
- 범위 — 평가된 태스크 외 일반화 성능은 아직 확인되지 않았습니다.
편집자 한 줄
자율 RL에서 하네스까지 진화 대상에 포함시킨 점이 신선합니다. 다만 코드가 공개되지 않아 재현성 확인은 좀 더 기다려야겠네요.
- #autonomous-rl
- #llm-training
- #evo-trainer
- #tongyilab
- #swe-bench
TongyiLab