← Back to feed
Papers·1주 전

데이터 부족 시대의 스케일링 법칙 — 반복 학습은 한계, 모델 용량에 투자하라

데이터 부족 시대의 스케일링 법칙 — 반복 학습은 한계, 모델 용량에 투자하라

Chinchilla 스케일링 법칙이 모든 학습 토큰이 고유하다고 가정하는 한계를 지적하며, 데이터 반복 시 과적합 패널티를 추가한 새로운 스케일링 법칙을 제안했습니다. 이 법칙은 데이터가 제한된 환경에서 최적의 compute 할당이 반복 횟수를 늘리는 대신 모델 용량을 키우는 방향으로 바뀌어야 함을 보여줍니다. 강한 weight decay(λ=1.0)가 과적합 계수를 약 70% 줄인다는 사례 연구도 포함되어, 데이터 제약 환경에서 weight decay를 표준보다 한 자릿수 크게 설정해야 한다는 최근 연구 결과를 스케일링 법칙으로 설명합니다.

  • #scaling-laws
  • #data-constrained
  • #overfitting
  • #weight-decay
  • #chinchilla
Justin Lovelace

Comments

— 첫 댓글을 남겨보세요 —