Papers·5일 전

RL 추론 최적화는 단 1~3% 토큰만 수정 — ReasonMaxxer로 RL 없이 성능 동등

USC 연구진은 RL이 LLM 추론을 개선하는 과정이 극히 일부(1~3%) 토큰 위치에서만 확률을 재분배하는 '희소 정책 선택'임을 밝혔습니다. RL 없이도 base model의 엔트로피로 수정 지점을 식별하고, contrastive loss를 적용하는 ReasonMaxxer를 제안, 3개 모델군·6개 수학 벤치마크에서 full RL과 동등한 성능을 내면서도 학습 비용을 약 1000분의 1로 줄였습니다. 단, 이 방법은 base model이 이미 정답 후보를 top-5 내에 포함하고 있어야 하며, 완전히 새로운 추론 전략을 학습하지는 않는다는 한계가 있습니다.

#reinforcement-learning
#reasoning
#llm
#usc
#sparse-correction

University of Southern California

원문 보기 →

RL 추론 최적화는 단 1~3% 토큰만 수정 — ReasonMaxxer로 RL 없이 성능 동등

Comments