Papers·1개월 전

ByteDance Seed, LLM 정규화 스케일 벡터의 역할 규명 — Pre-Norm 최적화 개선으로 2B MoE까지 일관된 손실 감소

ByteDance Seed 팀이 LLM 정규화 층의 스케일 벡터를 체계적으로 분석했습니다. 스케일 벡터는 파라미터의 극히 일부지만 제거 시 사전학습 성능이 크게 저하되며, Pre-Norm 구조에서는 표현력 증가보다 후속 선형 변환의 최적화를 개선하는 preconditioning 효과가 핵심임을 이론적으로 증명했습니다. 또한 weight decay가 Input-Norm 층에는 유리하지만 Output-Norm 층에는 해롭다는 점을 밝히고, branch-specific heterogeneity, 배치 개선, magnitude-direction reparameterization 등 세 가지 경량 개선을 제안했습니다. 통합 전략은 0.12B~2B 규모의 dense/MoE 모델에서 여러 옵티마이저와 스케줄 하에 일관된 손실 감소를 보였습니다.

ByteDance Seed 팀이 LLM 정규화 층의 스케일 벡터를 체계적으로 분석하고, Pre-Norm 최적화 개선을 통해 2B MoE까지 일관된 손실 감소를 이끌어냈습니다.

핵심 결론

역할 규명 — 스케일 벡터는 표현력 증가보다 후속 선형 변환의 preconditioning 효과로 최적화를 개선합니다.
성능 — 통합 전략으로 0.12B~2B dense/MoE 모델에서 well-tuned baseline 대비 일관된 낮은 terminal loss와 유리한 scaling behavior.
오버헤드 — 파라미터와 연산 오버헤드는 무시할 수준.

방법

분석 — Pre-Norm 구조에서 스케일 벡터가 self-amplifying preconditioning 효과를 통해 최적화를 돕는다는 이론 증명.
Weight decay — Input-Norm 층에는 유리, Output-Norm 층에는 해롭다는 이론적/실험적 결과.
개선 1 — Branch-specific heterogeneity: 서로 다른 sub-layer에 독립적인 스케일 벡터 할당.
개선 2 — Improved placement: 스케일 벡터를 선형 변환 전후에 배치하여 preconditioning 극대화.
개선 3 — Magnitude-direction reparameterization: 스케일 벡터를 크기와 방향으로 분리하여 학습.

한계·조건

범위 — 실험은 2B 파라미터까지의 모델에 국한되며, 더 큰 스케일에서의 검증이 필요합니다.
코드 — 코드 공개 여부는 아직 명시되지 않았습니다.
일반화 — Pre-Norm 구조에 특화된 분석으로, Post-Norm이나 다른 정규화 방식에는 직접 적용되지 않을 수 있습니다.

편집자 한 줄

스케일 벡터라는 사소해 보이는 요소의 역할을 이론과 실험으로 깔끔하게 정리한 점이 인상적입니다. 2B까지 검증된 점은 실용성 측면에서도 의미 있어 보입니다.

#normalization
#scale-vector
#optimization
#byte-dance
#llm

ByteDance Seed

원문 보기 →

ByteDance Seed, LLM 정규화 스케일 벡터의 역할 규명 — Pre-Norm 최적화 개선으로 2B MoE까지 일관된 손실 감소

핵심 결론

방법

한계·조건

Comments