Papers·5일 전
ESPO: RL 학습 중 조기 종단으로 rollout token 20% 절약 — AIME 46.28%

TongyiLab 팀이 RL 학습 중 잘못된 추론 단계를 감지해 rollout 을 조기 종단하는 ESPO(PPO 변형)를 제안했습니다. 추가 보상 모델 없이 logit 기반 regret 으로 실패 시점을 포착하고, 조기 종단된 궤적을 흡수 실패 상태로 처리해 TD 에러를 집중시킵니다. DeepSeek-R1-Distill-Qwen-7B 수학 추론에서 PPO 대비 AIME 46.28% vs 45.25%, AMC 85.83% vs 82.94%, MATH-500 87.42% vs 85.43%를 기록하며 rollout token 을 20% 이상 절약했습니다.
TongyiLab이 RL 학습 중 실패 궤적을 조기 종단해 token을 20% 절약하는 ESPO를 공개했습니다.
핵심 결론
- 벤치 — AIME 2024 46.28% (PPO 45.25%), AMC 2023 85.83% (82.94%), MATH-500 87.42% (85.43%)로 PPO 대비 일관된 개선.
- 효율 — 누적 rollout token 20% 이상 절약 — 학습 비용 절감 효과가 큽니다.
방법
- 조기 종단 — 각 생성 단계에서 logit 기반 surrogate regret 을 계산해, 누적 regret 이 임계값을 넘으면 rollout 을 즉시 중단합니다.
- 실패 상태 — 조기 종단된 궤적은 흡수 실패 상태로 간주해 terminal reward 를 부여, TD 에러를 실패 시점에 집중시킵니다.
- 추가 보상 모델이나 사람 주석 없이 logit 만으로 동작하는 점이 실용적입니다.
한계·조건
- 도메인 — 수학 추론 태스크에서만 검증 — 코드 생성이나 대화 등 다른 도메인 일반성은 아직 확인되지 않았습니다.
- 모델 — DeepSeek-R1-Distill-Qwen-7B 단일 모델 기준 — 다른 아키텍처나 스케일에서도 같은 이득이 유지될지는 추가 실험이 필요합니다.
- 코드 — Hugging Face 논문 페이지에 abstract 와 figure 만 공개 — 코드는 아직 미공개입니다.
편집자 한 줄
logit 만으로 실패 감지를 하는 아이디어가 깔끔하고, 20% token 절약은 실용적입니다. 다만 수학 추론 외 도메인에서도 통할지 후속 연구가 궁금하네요.
- #rl
- #ppo
- #early-stopping
- #tongyilab
- #mathematical-reasoning
TongyiLab