Papers·1주 전
NousResearch, 토큰 중첩 학습으로 10B MoE 모델 사전학습 2.5배 가속
NousResearch가 사전학습 데이터 처리량을 FLOPs 대비 크게 높이는 Token-Superposition Training (TST)을 제안했습니다. 연속된 여러 토큰을 하나의 가방으로 합쳐 multi-hot cross-entropy로 학습하는 중첩 단계와 표준 학습으로 복구하는 단계로 구성되며, 270M~600M 파라미터 실험과 3B, 10B MoE 모델에서 검증했습니다. 동일 loss 기준 10B A1B MoE에서 총 사전학습 시간을 최대 2.5배 단축했지만, 복구 단계의 학습률 스케줄 조정이 필요하고 대규모 분산 환경에서의 효율성은 추가 검증이 필요합니다.
- #pre-training
- #efficiency
- #nous-research
- #moe
NousResearch