Papers·1개월 전

DAgger 훈련으로 SWE-bench 4B 모델이 8B 수준 달성 — covariate shift 완화 효과

Georgia Tech 팀이 다중 턴 LM 에이전트의 covariate shift 문제를 해결하기 위해 Dataset Aggregation(DAgger)을 재조명했습니다. DAgger는 student와 teacher 정책을 턴 단위로 혼합한 궤적을 수집하고 teacher의 레이블로 supervised learning을 수행하는 방식으로, on-policy rollout으로 covariate shift를 피하면서 dense feedback을 제공합니다. SWE-bench Verified에서 4B 모델이 기존 최고 post-training baseline 대비 +3.9점, 8B 모델이 +3.6점 향상되었으며, 4B 모델은 27.3%로 공개된 8B SWE-agent 시스템을 능가했습니다. 단, 이 결과는 소프트웨어 엔지니어링 태스크에 국한되며, 다른 도메인에서의 일반화는 추가 검증이 필요합니다.

#dagger
#lm-agents
#swe-bench
#georgia-tech
#multi-turn

Georgia Institute of Technology

원문 보기 →

DAgger 훈련으로 SWE-bench 4B 모델이 8B 수준 달성 — covariate shift 완화 효과

Comments