Papers·1개월 전

Feedback Distillation — GRPO 대신 토큰 레벨 자기 증류로 Lean4 정리 증명 성능 향상

Meta Research 팀이 복잡한 추론(post-training)을 위해 GRPO의 sparse reward, 탐색 부족, 모드 붕괴 문제를 해결하는 Feedback Distillation을 제안했습니다. 이 방법은 모델이 자신의 분포를 LLM이 생성한 privileged feedback에 맞추도록 토큰 레벨에서 학습하며, Lean4 정리 증명에서 GRPO보다 높은 정책 엔트로피와 pass@k 스케일링을 보였습니다. 두 방법은 상호 보완적이어서 GRPO를 Feedback Distillation 체크포인트로 초기화하면 단일 방법보다 성능이 더 좋았습니다.

Meta Research가 GRPO의 한계를 극복하는 Feedback Distillation을 제안, Lean4 정리 증명에서 pass@k와 정책 다양성을 개선했습니다.

핵심 결론

태스크 — Lean4 정리 증명에서 Feedback Distillation은 GRPO 대비 더 높은 정책 엔트로피와 pass@k 스케일링을 달성했습니다.
상호 보완 — GRPO를 Feedback Distillation 체크포인트로 초기화하면 두 방법 중 어느 하나만 사용할 때보다 성능이 더 좋았습니다.

방법

핵심 아이디어 — 모델이 LLM이 생성한 privileged feedback(예: 정답, 힌트)을 조건으로 한 자신의 분포를 토큰 레벨에서 모방하도록 학습합니다.
차별점 — GRPO의 sparse reward 대신 토큰 레벨의 dense supervision을 제공하며, 외부 지식을 주입할 수 있습니다.
탐색 — Self-distillation 기반이라 GRPO보다 생성 궤적의 다양성이 유지되어 모드 붕괴를 줄입니다.

한계·조건

환경 — Lean4 도메인에 특화된 평가이며, 일반적인 추론 태스크로의 일반화는 추가 검증이 필요합니다.
리소스 — Privileged feedback 생성을 위해 추가 LLM 호출이 필요하므로 GRPO보다 연산 비용이 더 들 수 있습니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

GRPO의 대안으로서 자기 증류 기반 접근이 실제로 탐색 다양성과 성능을 함께 잡을 수 있는지 흥미로운 지점입니다.

#feedback-distillation
#grpo
#lean4
#meta-research

Meta Research

원문 보기 →

Feedback Distillation — GRPO 대신 토큰 레벨 자기 증류로 Lean4 정리 증명 성능 향상

핵심 결론

방법

한계·조건

Comments