Papers·1개월 전

Tencent Hunyuan, OPD 학습 효율의 원리를 파라미터 동역학으로 규명 — EffOPD 로 3배 가속

Tencent Hunyuan 팀이 on-policy distillation(OPD)의 효율성을 파라미터 수준에서 분석하고, 이를 바탕으로 학습을 3배 가속하는 EffOPD를 제안했습니다. OPD는 학습 초기부터 최종 모델로의 안정적인 업데이트 궤적을 형성하는 '선견지명(foresight)'을 가지며, 이는 모듈 할당 수준에서 한계 효용이 낮은 영역을 식별하고, 업데이트 방향 수준에서 저랭크 집중도를 높이는 방식으로 나타납니다. EffOPD는 추가 학습 가능한 모듈이나 복잡한 하이퍼파라미터 튜닝 없이 extrapolation step size를 적응적으로 선택하여 동작합니다. 단, 이 분석은 특정 distillation 설정에 국한될 수 있으며, 다양한 모델 크기와 데이터 분포에서의 일반화 검증이 필요합니다.

#distillation
#llm
#tencent
#efficiency
#training-acceleration

Tencent Hunyuan

원문 보기 →

Tencent Hunyuan, OPD 학습 효율의 원리를 파라미터 동역학으로 규명 — EffOPD 로 3배 가속

Comments