Papers·5일 전
LEAD: 강화학습으로 추론 효율성과 정확성을 동시에 잡는 동적 길이 제어

University of Texas at Dallas 팀이 대규모 추론 모델의 과도한 Chain-of-Thought 길이 문제를 해결하는 LEAD(Length-Efficient Adaptive and Dynamic reasoning)를 제안했습니다. 기존 정적 보상 방식 대신, Potential-Scaled Instability로 정확성-효율성 균형을 동적으로 조정하고, 모델 자신의 정답 rollout을 기반으로 문제별 적응형 목표 길이를 추정하여 대칭 효율성 보상을 적용합니다. 다섯 가지 수학 추론 벤치마크에서 기존 효율적 추론 RL 방법 대비 가장 높은 정확도와 Accuracy-Efficiency Score를 달성했으며, 출력 길이는 기본 모델보다 현저히 짧아졌습니다.
- #reasoning
- #chain-of-thought
- #reinforcement-learning
- #efficiency
- #ut-dallas
University of Texas at Dallas