Papers·2일 전
SU-01: 30B 모델로 IMO·IPhO 금메달 수준 — 역퍼플렉시티 커리큘럼 + 2단계 RL

저자들이 30B-A3B 백본에 역퍼플렉시티 커리큘럼 SFT와 2단계 RL(검증 가능 보상 → 증명 수준 RL)을 적용해 IMO 2025/USAMO 2026 및 IPhO 2024/2025에서 금메달 수준 성능을 달성한 SU-01을 공개했습니다. 핵심은 340K 개의 8K 토큰 미만 궤적으로 SFT한 후 200 RL 스텝으로 100K 토큰 이상의 안정적 추론을 유도한 점입니다. 단, 학습 데이터가 올림피아드 문제에 특화되어 있어 일반 수학·물리 문제로의 일반화는 추가 검증이 필요합니다.
- #reasoning
- #rl
- #sft
- #olympiad
- #su-01
Yafu Li