Papers·6일 전
USC, 단일 보상 비트 대신 풍부한 피드백 활용 — 분포적 DAgger 기반 DistIL, Pass@N 개선

USC 연구진이 RLVR의 단일 보상 비트(정답 여부) 대신 실행 추적, 도구 출력, 전문가 교정 등 풍부한 피드백을 활용하는 분포적 DAgger 변형 DistIL을 제안했습니다. 순방향 교차 엔트로피 목적 함수를 통해 단조 정책 개선을 보장하며 Pass@N을 향상시킵니다. 과학 추론, 코딩, 수학 문제에서 기존 RLVR 및 자기 증류 기반 RL보다 높은 성능을 보였습니다.
USC 연구진이 단일 보상 비트 대신 실행 추적, 도구 출력, 전문가 교정 등 풍부한 피드백을 활용하는 분포적 DAgger 기반 방법 DistIL을 제안했습니다.
핵심 결론
- 성능 — DistIL이 과학 추론, 코딩, 수학 문제에서 기존 RLVR 및 자기 증류 기반 RL 대비 Pass@N을 개선했습니다.
- 이론 — 순방향 교차 엔트로피는 단조 정책 개선을 보장하며, 역방향 KL이나 Jensen-Shannon 기반 방법은 그렇지 않음을 증명했습니다.
방법
- 분포적 DAgger — 현재 정책이 방문하는 상태에서 전문가 분포에 국소적으로 접근하여 순방향 교차 엔트로피를 최적화합니다.
- 신용 할당 — 시퀀스 수준 그래디언트가 미래의 전문가-학생 불일치를 초기 결정으로 전파하여 더 정밀한 신용 할당을 수행합니다.
- 목적 함수는 교사 가중 성공 가능도의 하한을 최적화하여 Pass@N을 향상시킵니다.
한계·조건
- 전문가 의존 — 방법은 블랙박스 전문가(예: 실행 추적, 도구 출력)에 접근 가능해야 하며, 전문가 없이는 적용이 어렵습니다.
- 실험 규모 — 논문은 다양한 도메인에서 평가했지만, 대규모 LLM(예: 70B 이상)에서의 결과는 포함되지 않았습니다.
- 코드 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
단일 보상 신호의 한계를 지적하고 풍부한 피드백을 활용하는 방향은 실용적입니다. 다만 전문가 접근성이 항상 보장되는 것은 아니라는 점을 고려해야 합니다.
- #reasoning
- #rl
- #dagger
- #usc
- #feedback
University of Southern California