Papers·1주 전

TikTok, 데이터 혼합 비율과 반복 학습을 고려한 정보 스케일링 법칙 InfoLaw 제안 — 7B 425B 토큰에서 loss 예측 오차 0.15%

TikTok 팀이 LLM 사전학습에서 데이터 품질·혼합 비율·반복 학습을 통합 예측하는 InfoLaw(Information Scaling Laws)를 발표했습니다. 기존 스케일링 법칙은 데이터 레시피 변경이나 반복 학습 시 extrapolation이 불안정했는데, InfoLaw는 정보 축적 관점에서 품질을 정보 밀도로, 반복을 규모 의존적 수확 체감으로 모델링해 해결합니다. 7B 425B 토큰 규모까지 loss 평균 0.15%, 최대 0.96% 오차로 extrapolation되며, 다양한 compute 예산에서 최적 데이터 레시피 선택을 가능하게 합니다. 단, 이 프레임워크는 데이터 품질 점수와 반복 구조에 민감할 수 있어 실제 적용 시 추가 보정이 필요합니다.

#scaling-laws
#data-mixture
#pretraining
#tiktok

Tiktok

원문 보기 →

TikTok, 데이터 혼합 비율과 반복 학습을 고려한 정보 스케일링 법칙 InfoLaw 제안 — 7B 425B 토큰에서 loss 예측 오차 0.15%

Comments