Papers·2일 전
TCOD: 온-폴리시 증류의 다중 턴 에이전트 불안정성 해결 — ALFWorld 등에서 최대 18점 개선

Jiaqi Wang 팀이 다중 턴 에이전트 환경에서 온-폴리시 증류(OPD)의 한계인 Trajectory-Level KL Instability를 지적하고, 이를 해결하는 TCOD(Temporal Curriculum On-Policy Distillation) 프레임워크를 제안했습니다. TCOD는 학생 모델이 노출되는 궤적 깊이를 짧은 것부터 긴 것까지 점진적으로 확장하는 커리큘럼 스케줄을 사용합니다. ALFWorld, WebShop, ScienceWorld 세 벤치마크에서 네 가지 학생-교사 쌍 실험 결과, TCOD는 KL 발산을 완화하고 안정성을 높여 vanilla OPD 대비 최대 18점 성능 향상을 달성했습니다. 흥미롭게도 TCOD는 교사 모델의 성능을 넘어서고 교사가 실패한 작업까지 일반화할 수 있었습니다.
- #on-policy-distillation
- #multi-turn-agent
- #curriculum-learning
- #alfworld
- #webshop
Jiaqi Wang