Papers·1개월 전

ThoughtFold: RLVR 기반 추론 모델의 over-thinking 문제를 fine-grained 선호 학습으로 해결 — DeepSeek-R1-Distill-Qwen-7B 토큰 56% 절감

Intern Large Models 팀이 제안한 ThoughtFold는 RLVR(Reinforcement Learning with Verifiable Rewards)로 학습된 대규모 추론 모델(LRM)의 over-thinking 문제를 해결합니다. 기존 방법이 단순히 짧은 경로에 가중치를 주는 반면, ThoughtFold는 각 정답 궤적 내에서 불필요한 탐색을 식별하고, 마스크된 선호 최적화(masked preference optimization)를 통해 불필요한 부분을 직접 생략하도록 학습시킵니다. DeepSeek-R1-Distill-Qwen-7B에서 토큰 사용량을 약 56% 줄이면서도 정확도는 유지했습니다. 단, 이 방법은 이미 정답 궤적이 확보된 상황에서만 적용 가능하며, 오답 궤적에 대한 처리는 별도로 필요합니다.

RLVR로 학습된 LRM이 긴 CoT에서 불필요한 탐색을 반복하는 over-thinking 문제를 fine-grained 선호 학습으로 해결한 프레임워크입니다.

핵심 결론

효율 — DeepSeek-R1-Distill-Qwen-7B에서 토큰 사용량 약 56% 감소, 정확도는 SOTA 수준 유지.
문제 — 기존 RLVR는 정답 궤적 전체를 암기하도록 강화하여 불필요한 탐색까지 학습하게 됩니다.

방법

내성적 전략 — 각 정답 궤적 내에서 불필요한 부분을 식별하여 다양한 후보 부분 궤적을 생성합니다.
마스크 선호 최적화 — 불필요한 탐색을 명시적으로 패널티하고, 필수 추론 단계를 직접 연결하도록 학습합니다.
결과적으로 추론 체인이 더 간결하게 접히게(folding) 됩니다.

한계·조건

데이터 — 정답 궤적이 이미 확보된 환경에서만 적용 가능하며, 오답 궤적 처리는 별도 필요.
확장성 — 7B 모델 기준 실험이며, 더 큰 모델에서의 효과는 추가 검증이 필요합니다.
코드 — GitHub 공개 예정 — 현재는 논문과 데모만 제공.

편집자 한 줄

over-thinking 문제에 대한 실용적인 해결책으로 보이지만, 정답 궤적 내에서만 작동한다는 점이 적용 범위를 제한합니다.

#reasoning
#rlvr
#over-thinking
#intern-large-models
#efficiency

Intern Large Models

원문 보기 →

ThoughtFold: RLVR 기반 추론 모델의 over-thinking 문제를 fine-grained 선호 학습으로 해결 — DeepSeek-R1-Distill-Qwen-7B 토큰 56% 절감

핵심 결론

방법

한계·조건

Comments