Papers·1개월 전

SU-01: 30B 모델로 IMO·IPhO 금메달 수준 — 역퍼플렉시티 커리큘럼 + 2단계 RL

저자들이 30B-A3B 백본에 역퍼플렉시티 커리큘럼 SFT와 2단계 RL(검증 가능 보상 → 증명 수준 RL)을 적용해 IMO 2025/USAMO 2026 및 IPhO 2024/2025에서 금메달 수준 성능을 달성한 SU-01을 공개했습니다. 핵심은 340K 개의 8K 토큰 미만 궤적으로 SFT한 후 200 RL 스텝으로 100K 토큰 이상의 안정적 추론을 유도한 점입니다. 단, 학습 데이터가 올림피아드 문제에 특화되어 있어 일반 수학·물리 문제로의 일반화는 추가 검증이 필요합니다.

#reasoning
#rl
#sft
#olympiad
#su-01

Yafu Li

원문 보기 →

SU-01: 30B 모델로 IMO·IPhO 금메달 수준 — 역퍼플렉시티 커리큘럼 + 2단계 RL

Comments