Papers·1개월 전

Shannon Scaling Law — LLM 스케일링에서 비단조 성능 저하를 설명하는 통합 이론

기존의 단조 멱법칙 스케일링 법칙은 catastrophic overtraining이나 양자화로 인한 성능 저하 같은 비단조 현상을 설명하지 못합니다. 이 논문은 Shannon-Hartley 정리에 기반해 LLM 학습을 잡음 채널을 통한 정보 전송으로 모델링하는 Shannon Scaling Law를 제안합니다. 모델 크기와 데이터 양을 늘려도 신호 대 잡음비(SNR)가 유지되지 않으면 잡음이 증폭돼 U자형 성능 곡선이 나타난다는 게 핵심 직관입니다. Pythia, OLMo2 실험에서 기존 법칙보다 높은 R² 점수를 보였고, 6.9B 모델로 12B 모델의 성능을 extrapolation했을 때도 R²=0.847로 단조 법칙이 붕괴하는 지점을 잘 예측했습니다.

#scaling-laws
#llm
#shannon
#information-theory
#pythia

Xu Ouyang

원문 보기 →

Shannon Scaling Law — LLM 스케일링에서 비단조 성능 저하를 설명하는 통합 이론

Comments