Papers·1개월 전

Pion: Muon 대체 옵티마이저 — 고주파 통과 필터로 VLA·RLVR 학습 안정화

MSU 연구진이 Muon 옵티마이저의 한계를 지적하고, 고유값을 선택적으로 억제하는 Pion을 제안했습니다. Muon은 모든 특이값을 1로 강제하는 균일 스펙트럼 백색화로 LLM 사전학습에서는 효과적이나, 저랭크 경향이 강한 VLA(시각-언어-행동) 모듈이나 신호 대 잡음비가 낮은 RLVR(검증 가능한 보상 강화학습)에서는 불안정해집니다. Pion은 Newton-Schulz 반복을 변형해 지배적 특이값은 1로 유지하고 잡음 특이값은 0으로 억제하는 고주파 통과 필터를 적용합니다. LIBERO 벤치마크에서 VLA-Adapter로 1500 스텝 만에 100% 성공률을 기록했고(Muon 97%, AdamW 32.2%), 실제 Franka 로봇 태스크와 Qwen3-1.7B/4B RLVR 후속학습에서도 Muon 붕괴 없이 AdamW를 능가했습니다. 단, Pion의 필터 강도 하이퍼파라미터 추가가 필요해 태스크별 튜닝이 필요할 수 있습니다.

#optimizer
#vla
#rlvr
#muon
#msu

OPTML Group @ MSU

원문 보기 →

Pion: Muon 대체 옵티마이저 — 고주파 통과 필터로 VLA·RLVR 학습 안정화

Comments