Papers·어제
Microsoft, RLVR에 역방향 자기-증류 도입 — RLRT가 Qwen3에서 기존 대비 최대 8% 개선

Microsoft Research가 자기-증류(self-distillation)의 신호를 역으로 읽어, 학생 모델이 성공한 토큰을 강화하는 RLRT(RLVR with Reversed Teacher)를 제안했습니다. 기존 자기-증류가 실패 시 도움을 주지만 성공 시 학생의 추론을 덮어쓰는 문제를 해결, GRPO에 역방향 교사 신호를 추가해 유용한 탐색을 유도합니다. Qwen3의 base, instruction-tuned, thinking-tuned 체크포인트에서 기존 자기-증류 및 탐색 기반 방법을 일관되게 능가했으며, 정보 비대칭을 RLVR의 새로운 설계 축으로 제시한 점이 흥미롭습니다.
- #self-distillation
- #rlvr
- #grpo
- #microsoft
- #qwen3
Microsoft Research