Papers·어제
ByteDance Seed, LLM 정규화 스케일 벡터의 역할 규명 — Pre-Norm 최적화 개선으로 2B MoE까지 일관된 손실 감소

ByteDance Seed 팀이 LLM 정규화 층의 스케일 벡터를 체계적으로 분석했습니다. 스케일 벡터는 파라미터의 극히 일부지만 제거 시 사전학습 성능이 크게 저하되며, Pre-Norm 구조에서는 표현력 증가보다 후속 선형 변환의 최적화를 개선하는 preconditioning 효과가 핵심임을 이론적으로 증명했습니다. 또한 weight decay가 Input-Norm 층에는 유리하지만 Output-Norm 층에는 해롭다는 점을 밝히고, branch-specific heterogeneity, 배치 개선, magnitude-direction reparameterization 등 세 가지 경량 개선을 제안했습니다. 통합 전략은 0.12B~2B 규모의 dense/MoE 모델에서 여러 옵티마이저와 스케줄 하에 일관된 손실 감소를 보였습니다.
ByteDance Seed 팀이 LLM 정규화 층의 스케일 벡터를 체계적으로 분석하고, Pre-Norm 최적화 개선을 통해 2B MoE까지 일관된 손실 감소를 이끌어냈습니다.
핵심 결론
- 역할 규명 — 스케일 벡터는 표현력 증가보다 후속 선형 변환의 preconditioning 효과로 최적화를 개선합니다.
- 성능 — 통합 전략으로 0.12B~2B dense/MoE 모델에서 well-tuned baseline 대비 일관된 낮은 terminal loss와 유리한 scaling behavior.
- 오버헤드 — 파라미터와 연산 오버헤드는 무시할 수준.
방법
- 분석 — Pre-Norm 구조에서 스케일 벡터가 self-amplifying preconditioning 효과를 통해 최적화를 돕는다는 이론 증명.
- Weight decay — Input-Norm 층에는 유리, Output-Norm 층에는 해롭다는 이론적/실험적 결과.
- 개선 1 — Branch-specific heterogeneity: 서로 다른 sub-layer에 독립적인 스케일 벡터 할당.
- 개선 2 — Improved placement: 스케일 벡터를 선형 변환 전후에 배치하여 preconditioning 극대화.
- 개선 3 — Magnitude-direction reparameterization: 스케일 벡터를 크기와 방향으로 분리하여 학습.
한계·조건
- 범위 — 실험은 2B 파라미터까지의 모델에 국한되며, 더 큰 스케일에서의 검증이 필요합니다.
- 코드 — 코드 공개 여부는 아직 명시되지 않았습니다.
- 일반화 — Pre-Norm 구조에 특화된 분석으로, Post-Norm이나 다른 정규화 방식에는 직접 적용되지 않을 수 있습니다.
편집자 한 줄
스케일 벡터라는 사소해 보이는 요소의 역할을 이론과 실험으로 깔끔하게 정리한 점이 인상적입니다. 2B까지 검증된 점은 실용성 측면에서도 의미 있어 보입니다.
- #normalization
- #scale-vector
- #optimization
- #byte-dance
- #llm
ByteDance Seed