Papers·2일 전
ThoughtFold: RLVR 기반 추론 모델의 over-thinking 문제를 fine-grained 선호 학습으로 해결 — DeepSeek-R1-Distill-Qwen-7B 토큰 56% 절감

Intern Large Models 팀이 제안한 ThoughtFold는 RLVR(Reinforcement Learning with Verifiable Rewards)로 학습된 대규모 추론 모델(LRM)의 over-thinking 문제를 해결합니다. 기존 방법이 단순히 짧은 경로에 가중치를 주는 반면, ThoughtFold는 각 정답 궤적 내에서 불필요한 탐색을 식별하고, 마스크된 선호 최적화(masked preference optimization)를 통해 불필요한 부분을 직접 생략하도록 학습시킵니다. DeepSeek-R1-Distill-Qwen-7B에서 토큰 사용량을 약 56% 줄이면서도 정확도는 유지했습니다. 단, 이 방법은 이미 정답 궤적이 확보된 상황에서만 적용 가능하며, 오답 궤적에 대한 처리는 별도로 필요합니다.
RLVR로 학습된 LRM이 긴 CoT에서 불필요한 탐색을 반복하는 over-thinking 문제를 fine-grained 선호 학습으로 해결한 프레임워크입니다.
핵심 결론
- 효율 — DeepSeek-R1-Distill-Qwen-7B에서 토큰 사용량 약 56% 감소, 정확도는 SOTA 수준 유지.
- 문제 — 기존 RLVR는 정답 궤적 전체를 암기하도록 강화하여 불필요한 탐색까지 학습하게 됩니다.
방법
- 내성적 전략 — 각 정답 궤적 내에서 불필요한 부분을 식별하여 다양한 후보 부분 궤적을 생성합니다.
- 마스크 선호 최적화 — 불필요한 탐색을 명시적으로 패널티하고, 필수 추론 단계를 직접 연결하도록 학습합니다.
- 결과적으로 추론 체인이 더 간결하게 접히게(folding) 됩니다.
한계·조건
- 데이터 — 정답 궤적이 이미 확보된 환경에서만 적용 가능하며, 오답 궤적 처리는 별도 필요.
- 확장성 — 7B 모델 기준 실험이며, 더 큰 모델에서의 효과는 추가 검증이 필요합니다.
- 코드 — GitHub 공개 예정 — 현재는 논문과 데모만 제공.
편집자 한 줄
over-thinking 문제에 대한 실용적인 해결책으로 보이지만, 정답 궤적 내에서만 작동한다는 점이 적용 범위를 제한합니다.
- #reasoning
- #rlvr
- #over-thinking
- #intern-large-models
- #efficiency
Intern Large Models