Papers·어제
Qwen, RL 학습에서 MTP rollout 가속 유지하는 Bebop — 엔트로피 제어로 최대 1.8x

Qwen 팀이 RL 학습 중 Multi-Token Prediction (MTP)의 acceptance rate 저하 문제를 해결하는 Bebop을 제안했습니다. 핵심은 엔트로피 변동이 acceptance rate를 제한한다는 발견과, 이에 대한 해법으로 end-to-end TV 손실과 확률적 거절 샘플링을 도입한 점입니다. Qwen3.5~3.7 모델에서 수학·코드·에이전트 태스크에 걸쳐 최대 95% acceptance rate, 1.8x end-to-end 가속을 달성했지만, 온라인 MTP 업데이트 없이 pre-RL 단계에서만 학습해도 효과가 유지된다는 점이 실용적입니다.
Qwen 팀이 RL 학습에서 MTP rollout 가속을 유지하는 방법을 체계적으로 분석하고, 최대 1.8x end-to-end 가속을 달성했습니다.
핵심 결론
- 태스크 — 수학(수학 벤치마크), 코드 생성, 에이전트 태스크에서 최대 95% acceptance rate, 1.8x end-to-end 가속.
- 모델 — Qwen3.5, Qwen3.6, Qwen3.7 계열에서 검증.
방법
- 엔트로피 분석 — RL 단계에서 모델 엔트로피 상승이 MTP acceptance rate를 제한하는 음의 선형 관계를 발견.
- 거절 샘플링 — Greedy 드래프트 대신 확률적 거절 샘플링을 사용해 엔트로피 변동 영향을 완화.
- TV 손실 — 기존 cross-entropy/KL 손실 대신 end-to-end Total Variation (TV) 손실로 다단계 거절 샘플링 acceptance rate를 직접 최적화, ~10% 추가 향상.
- Pre-RL MTP 학습만으로도 RL 전체에서 일관된 acceptance rate 유지, 온라인 업데이트 불필요.
한계·조건
- 환경 — 비동기 RL 학습 기준, 정확한 하드웨어 사양은 명시되지 않음.
- 범위 — Qwen 계열에 국한, 다른 아키텍처에서의 일반화는 추가 검증 필요.
- 코드 — 논문 내 코드 공개 여부 불명.
편집자 한 줄
엔트로피와 acceptance rate의 선형 관계를 실험적으로 밝히고, 이에 맞춘 손실 함수를 설계한 점이 깔끔합니다. 온라인 업데이트 없이 pre-RL 학습만으로 효과가 지속된다는 점은 실제 파이프라인에 적용하기 좋은 설계네요.
- #reinforcement-learning
- #multi-token-prediction
- #qwen
- #speculative-decoding
Qwen