← Back to feed
Papers·어제

DAgger 훈련으로 SWE-bench 4B 모델이 8B 수준 달성 — covariate shift 완화 효과

DAgger 훈련으로 SWE-bench 4B 모델이 8B 수준 달성 — covariate shift 완화 효과

Georgia Tech 팀이 다중 턴 LM 에이전트의 covariate shift 문제를 해결하기 위해 Dataset Aggregation(DAgger)을 재조명했습니다. DAgger는 student와 teacher 정책을 턴 단위로 혼합한 궤적을 수집하고 teacher의 레이블로 supervised learning을 수행하는 방식으로, on-policy rollout으로 covariate shift를 피하면서 dense feedback을 제공합니다. SWE-bench Verified에서 4B 모델이 기존 최고 post-training baseline 대비 +3.9점, 8B 모델이 +3.6점 향상되었으며, 4B 모델은 27.3%로 공개된 8B SWE-agent 시스템을 능가했습니다. 단, 이 결과는 소프트웨어 엔지니어링 태스크에 국한되며, 다른 도메인에서의 일반화는 추가 검증이 필요합니다.

  • #dagger
  • #lm-agents
  • #swe-bench
  • #georgia-tech
  • #multi-turn
Georgia Institute of Technology

Comments

— 첫 댓글을 남겨보세요 —