Papers·어제
DAgger 훈련으로 SWE-bench 4B 모델이 8B 수준 달성 — covariate shift 완화 효과
Georgia Tech 팀이 다중 턴 LM 에이전트의 covariate shift 문제를 해결하기 위해 Dataset Aggregation(DAgger)을 재조명했습니다. DAgger는 student와 teacher 정책을 턴 단위로 혼합한 궤적을 수집하고 teacher의 레이블로 supervised learning을 수행하는 방식으로, on-policy rollout으로 covariate shift를 피하면서 dense feedback을 제공합니다. SWE-bench Verified에서 4B 모델이 기존 최고 post-training baseline 대비 +3.9점, 8B 모델이 +3.6점 향상되었으며, 4B 모델은 27.3%로 공개된 8B SWE-agent 시스템을 능가했습니다. 단, 이 결과는 소프트웨어 엔지니어링 태스크에 국한되며, 다른 도메인에서의 일반화는 추가 검증이 필요합니다.
- #dagger
- #lm-agents
- #swe-bench
- #georgia-tech
- #multi-turn
Georgia Institute of Technology