Papers·6일 전
TAPO: RL 기반 자기 증류로 추론 오류를 진단·수정 — AIME 2024/2025, HMMT 2025에서 GRPO 대비 일관된 개선

Qwen 팀이 제안한 TAPO(Trajectory-Augmented Policy Optimization)는 기존 자기 증류의 KL 발산 정렬 대신, RL 학습 중 모델이 생성한 정답/오답 궤적을 대조해 오류 지점에 자연어 진단과 수정 궤적을 삽입합니다. AIME 2024, AIME 2025, HMMT 2025 벤치마크에서 동일 학습 스텝의 GRPO 대비 일관된 성능 향상을 보였으며, 첫 추론과 오류 수정 능력을 모두 강화합니다.
Qwen 팀이 자기 증류 기반 추론 개선 방법 TAPO를 제안했습니다. 기존 KL 발산 정렬 대신 RL 학습 중 오답 궤적에 진단과 수정을 삽입해 오류를 직접 교정합니다.
핵심 결론
- 벤치마크 — AIME 2024, AIME 2025, HMMT 2025에서 GRPO 대비 동일 학습 스텝 수로 일관된 성능 향상.
- 효과 — 첫 번째 추론(first-pass reasoning)과 오류 수정 능력(error-correction effectiveness)을 모두 강화.
방법
- 핵심 아이디어 — RL 학습 중 동일 질문에 대한 정답/오답 궤적을 대조해, 오답의 실패 지점까지는 유지하고 그 후 자연어 진단과 정답 참조 기반 수정 궤적을 삽입(micro-reflective correction).
- 차별점 — 기존 자기 증류는 KL 발산으로 암묵적 정렬을 수행하지만, TAPO는 명시적 궤적 구성(trajectory construction)을 통해 오류의 위치와 원인을 직접 진단.
- 통합 기법 — 난이도 인식 후보 선택(difficulty-aware candidate selection)과 분리된 이점 추정(decoupled advantage estimation)으로 기울기 오염 방지.
한계·조건
- 리소스 — RL 학습 과정에서 정답/오답 궤적을 모두 생성해야 하므로, 단순 GRPO보다 샘플링 비용이 증가할 수 있음.
- 재현성 — 코드 공개 여부는 명시되지 않았으며, 실험은 특정 모델 크기와 벤치마크에 국한됨.
편집자 한 줄
오류 지점에 자연어 진단을 삽입하는 방식은 해석 가능성 측면에서도 흥미롭지만, 진단 자체의 품질이 성능에 민감할 수 있어 추가 분석이 필요해 보입니다.
- #self-distillation
- #reinforcement-learning
- #reasoning
- #qwen
- #tap-o
QwenBusinessUnit-Edu