← Back to feed
Papers·6일 전

TAPO: RL 기반 자기 증류로 추론 오류를 진단·수정 — AIME 2024/2025, HMMT 2025에서 GRPO 대비 일관된 개선

TAPO: RL 기반 자기 증류로 추론 오류를 진단·수정 — AIME 2024/2025, HMMT 2025에서 GRPO 대비 일관된 개선

Qwen 팀이 제안한 TAPO(Trajectory-Augmented Policy Optimization)는 기존 자기 증류의 KL 발산 정렬 대신, RL 학습 중 모델이 생성한 정답/오답 궤적을 대조해 오류 지점에 자연어 진단과 수정 궤적을 삽입합니다. AIME 2024, AIME 2025, HMMT 2025 벤치마크에서 동일 학습 스텝의 GRPO 대비 일관된 성능 향상을 보였으며, 첫 추론과 오류 수정 능력을 모두 강화합니다.

Qwen 팀이 자기 증류 기반 추론 개선 방법 TAPO를 제안했습니다. 기존 KL 발산 정렬 대신 RL 학습 중 오답 궤적에 진단과 수정을 삽입해 오류를 직접 교정합니다.

핵심 결론

  • 벤치마크AIME 2024, AIME 2025, HMMT 2025에서 GRPO 대비 동일 학습 스텝 수로 일관된 성능 향상.
  • 효과첫 번째 추론(first-pass reasoning)과 오류 수정 능력(error-correction effectiveness)을 모두 강화.

방법

  • 핵심 아이디어RL 학습 중 동일 질문에 대한 정답/오답 궤적을 대조해, 오답의 실패 지점까지는 유지하고 그 후 자연어 진단과 정답 참조 기반 수정 궤적을 삽입(micro-reflective correction).
  • 차별점기존 자기 증류는 KL 발산으로 암묵적 정렬을 수행하지만, TAPO는 명시적 궤적 구성(trajectory construction)을 통해 오류의 위치와 원인을 직접 진단.
  • 통합 기법난이도 인식 후보 선택(difficulty-aware candidate selection)과 분리된 이점 추정(decoupled advantage estimation)으로 기울기 오염 방지.

한계·조건

  • 리소스RL 학습 과정에서 정답/오답 궤적을 모두 생성해야 하므로, 단순 GRPO보다 샘플링 비용이 증가할 수 있음.
  • 재현성코드 공개 여부는 명시되지 않았으며, 실험은 특정 모델 크기와 벤치마크에 국한됨.

편집자 한 줄

오류 지점에 자연어 진단을 삽입하는 방식은 해석 가능성 측면에서도 흥미롭지만, 진단 자체의 품질이 성능에 민감할 수 있어 추가 분석이 필요해 보입니다.

  • #self-distillation
  • #reinforcement-learning
  • #reasoning
  • #qwen
  • #tap-o
QwenBusinessUnit-Edu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —