← Back to feed
Papers·2일 전

Gated Delta Network 의 μP 확장 — 폭 8배에서도 학습률 전이 성공

Gated Delta Network 의 μP 확장 — 폭 8배에서도 학습률 전이 성공

UCLA 팀이 Gated Delta Network 에 Maximal Update Parametrization (μP) 을 확장해, AdamW/SGD 모두에서 모델 폭이 8배 달라져도 학습률 전이가 안정적으로 동작함을 보였습니다. 기존 표준 파라미터화는 전이에 실패하는 반면, 제안된 방식은 zero-shot 전이가 가능해 하이퍼파라미터 튜닝 비용을 크게 줄일 수 있습니다. 단, 이론 분석은 coordinate-size 추정에 기반하며, 실험은 언어 모델 사전학습 한정이라는 점을 감안해야 합니다.

UCLA 팀이 Gated Delta Network 에서도 μP(최대 업데이트 파라미터화)가 학습률 전이를 가능하게 함을 이론·실험으로 증명했습니다.

핵심 결론

  • 태스크언어 모델 사전학습에서 모델 폭 8배 차이에도 학습률 전이 성공.
  • 수치AdamW와 SGD 모두에서 μP 설정 시 손실 안정적 수렴, 표준 파라미터화는 전이 실패.

방법

  • 이론순전파, 게이팅, 순환 상태 동역학을 통해 coordinate-size 추정을 엄밀히 전파해 스케일링 규칙을 유도했습니다.
  • Gated Delta Network 의 구조적 특성(게이트, 상태 전이)을 고려한 μP 확장이 핵심입니다.

한계·조건

  • 범위실험은 언어 모델 사전학습에 국한되며, 다른 태스크나 아키텍처에서의 일반성은 추가 검증이 필요합니다.
  • 코드논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

μP가 선형 RNN 계열로 확장된 첫 사례라 의미가 있습니다. 다만 Gated Delta Network 외 다른 변형에도 적용 가능할지는 후속 연구를 지켜볼 만합니다.

  • #gated-delta-network
  • #mup
  • #hyperparameter-transfer
  • #ucla
  • #scaling
University of California, Los Angeles
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —