Papers·1개월 전

VibeThinker-3B: 3B 모델로 AIME26 94.3, DeepSeek V3.2 수준 추론 달성

WeiboAI의 VibeThinker-3B는 3B 파라미터의 소형 모델로, AIME26에서 94.3점(claim-level test-time scaling 시 97.1), LiveCodeBench v6에서 80.2% Pass@1을 기록하며 DeepSeek V3.2, GLM-5, Gemini 3 Pro 등 수백 배 큰 모델과 견줄 만한 성능을 보였습니다. 핵심은 Spectrum-to-Signal 후학습 패러다임 위에 커리큘럼 기반 SFT, 다영역 RL, 오프라인 자기 증류를 결합한 파이프라인입니다. 저자들은 검증 가능한 추론이 소형 모델의 '추론 코어'로 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 제안하며, IFEval 93.4로 명령 제어력도 유지됨을 확인했습니다.

WeiboAI가 3B 파라미터 소형 모델 VibeThinker-3B를 공개했습니다. AIME26 94.3, LiveCodeBench v6 80.2%로 수백 배 큰 모델과 대등한 추론 성능을 보여주네요.

핵심 결론

추론 성능 — AIME26 94.3 (claim-level test-time scaling 시 97.1), LiveCodeBench v6 80.2% Pass@1.
비교 — DeepSeek V3.2, GLM-5, Gemini 3 Pro 등 수백 배 큰 모델과 동등하거나 능가.
제어력 — IFEval 93.4로 추론 향상이 명령 제어력을 해치지 않음.

방법

후학습 패러다임 — Spectrum-to-Signal 후학습 패러다임 기반으로, 커리큘럼 SFT, 다영역 RL, 오프라인 자기 증류를 순차적으로 적용.
가설 — Parametric Compression-Coverage Hypothesis: 검증 가능 추론은 소형 '추론 코어'로 압축 가능하지만, 개방형 지식은 넓은 파라미터 범위가 필요.

한계·조건

범위 — 검증 가능한 태스크(AIME, LiveCodeBench)에 특화; 일반 상식·창의적 추론은 측정되지 않음.
재현성 — 코드·가중치 공개 여부는 보고서에 명시되지 않음.
스케일링 — test-time scaling 시 추가 연산 필요; claim-level 전략의 일반화는 추가 검증 필요.

편집자 한 줄

3B 모델이 수백 B 모델을 추론 태스크에서 따라잡은 점은 인상적이지만, IFEval 외 일반 능력 평가가 빠져 있어 실제 활용 범위는 좀 더 지켜봐야겠네요.

#verifiable-reasoning
#small-model
#weiboai
#reinforcement-learning
#distillation

WeiboAI

원문 보기 →

VibeThinker-3B: 3B 모델로 AIME26 94.3, DeepSeek V3.2 수준 추론 달성

핵심 결론

방법

한계·조건

Comments