Papers·1개월 전

Gated Delta Network 의 μP 확장 — 폭 8배에서도 학습률 전이 성공

UCLA 팀이 Gated Delta Network 에 Maximal Update Parametrization (μP) 을 확장해, AdamW/SGD 모두에서 모델 폭이 8배 달라져도 학습률 전이가 안정적으로 동작함을 보였습니다. 기존 표준 파라미터화는 전이에 실패하는 반면, 제안된 방식은 zero-shot 전이가 가능해 하이퍼파라미터 튜닝 비용을 크게 줄일 수 있습니다. 단, 이론 분석은 coordinate-size 추정에 기반하며, 실험은 언어 모델 사전학습 한정이라는 점을 감안해야 합니다.

UCLA 팀이 Gated Delta Network 에서도 μP(최대 업데이트 파라미터화)가 학습률 전이를 가능하게 함을 이론·실험으로 증명했습니다.

핵심 결론

태스크 — 언어 모델 사전학습에서 모델 폭 8배 차이에도 학습률 전이 성공.
수치 — AdamW와 SGD 모두에서 μP 설정 시 손실 안정적 수렴, 표준 파라미터화는 전이 실패.

방법

이론 — 순전파, 게이팅, 순환 상태 동역학을 통해 coordinate-size 추정을 엄밀히 전파해 스케일링 규칙을 유도했습니다.
Gated Delta Network 의 구조적 특성(게이트, 상태 전이)을 고려한 μP 확장이 핵심입니다.

한계·조건

범위 — 실험은 언어 모델 사전학습에 국한되며, 다른 태스크나 아키텍처에서의 일반성은 추가 검증이 필요합니다.
코드 — 논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

μP가 선형 RNN 계열로 확장된 첫 사례라 의미가 있습니다. 다만 Gated Delta Network 외 다른 변형에도 적용 가능할지는 후속 연구를 지켜볼 만합니다.

#gated-delta-network
#mup
#hyperparameter-transfer
#ucla
#scaling

University of California, Los Angeles

원문 보기 →

Gated Delta Network 의 μP 확장 — 폭 8배에서도 학습률 전이 성공

핵심 결론

방법

한계·조건

Comments