Papers·1주 전
데이터 부족 시대의 스케일링 법칙 — 반복 학습은 한계, 모델 용량에 투자하라

Chinchilla 스케일링 법칙이 모든 학습 토큰이 고유하다고 가정하는 한계를 지적하며, 데이터 반복 시 과적합 패널티를 추가한 새로운 스케일링 법칙을 제안했습니다. 이 법칙은 데이터가 제한된 환경에서 최적의 compute 할당이 반복 횟수를 늘리는 대신 모델 용량을 키우는 방향으로 바뀌어야 함을 보여줍니다. 강한 weight decay(λ=1.0)가 과적합 계수를 약 70% 줄인다는 사례 연구도 포함되어, 데이터 제약 환경에서 weight decay를 표준보다 한 자릿수 크게 설정해야 한다는 최근 연구 결과를 스케일링 법칙으로 설명합니다.
- #scaling-laws
- #data-constrained
- #overfitting
- #weight-decay
- #chinchilla
Justin Lovelace