← Back to feed
Papers·2일 전

NYU, optimizer가 FFN spectral scaling에 미치는 영향 — AdamW 대비 Muon, rare-token 표현에서 2.3배 높은 scaling exponent

NYU, optimizer가 FFN spectral scaling에 미치는 영향 — AdamW 대비 Muon, rare-token 표현에서 2.3배 높은 scaling exponent

NYU 연구진이 Transformer의 FFN 표현에서 optimizer가 spectral scaling 법칙에 미치는 영향을 분석했습니다. AdamW는 rare-token(TAIL) 표현에서 hard-rank scaling exponent β=0.44에 그친 반면, Muon은 β=1.02로 선형에 가까운 scaling을 보였습니다. 이 차이는 validation loss로 설명되지 않으며, optimizer가 representation capacity의 양과 구조 모두에 영향을 미친다는 점을 보여줍니다. 단, 이 결과는 특정 아키텍처와 width schedule에 국한되며, 다른 설정에서의 일반화는 추가 검증이 필요합니다.

  • #scaling-laws
  • #optimizer
  • #spectral-analysis
  • #nyu
  • #transformer
New York University

Comments

— 첫 댓글을 남겨보세요 —