← Back to feed
Papers·6일 전

DynMuon — Muon 최적화기의 스펙트럼 형상을 동적으로 조절해 10~26% 수렴 가속

DynMuon — Muon 최적화기의 스펙트럼 형상을 동적으로 조절해 10~26% 수렴 가속

University of Wisconsin-Madison 연구팀이 Muon 최적화기의 업데이트 행렬에 스펙트럼 형상 파라미터 p를 도입한 DynMuon을 제안했습니다. p를 학습 초기에는 양수(고곡률 방향 강조), 후기에는 약한 음수(저곡률 방향 신호 활용)로 동적 스케줄링하여, 다양한 모델 크기와 아키텍처에서 Muon 대비 동일 손실 도달 시 10.6~26.5% 적은 스텝을 요구합니다. 다만 p 스케줄링이 추가 하이퍼파라미터라는 점과 이론이 로컬 곡률과 노이즈 모델에 의존한다는 한계가 있습니다.

  • #optimization
  • #muon
  • #spectral-shaping
  • #uw-madison
University of Wisconsin-Madison

Comments

— 첫 댓글을 남겨보세요 —