← Back to feed
Papers·1주 전

상하이교통대, 차원 축소와 표현 공간 정규화로 NTP 한계 극복 — 9B MoE MMLU-Pro 5.7%p 향상

상하이교통대, 차원 축소와 표현 공간 정규화로 NTP 한계 극복 — 9B MoE MMLU-Pro 5.7%p 향상

상하이교통대 연구팀이 next-token prediction(NTP)의 희소한 one-hot 감독이 표현 공간을 비대칭·퇴화시키는 문제를 해결하는 NITP(Next Implicit Token Prediction)를 제안했습니다. NITP는 동일 모델의 얕은 층 표현을 self-supervised 타깃으로 삼아, 다음 토큰의 암시적 의미를 연속 공간에서 예측하도록 학습합니다. 0.5B~9B 규모의 dense/MoE 모델에서 일관된 성능 향상을 보였고, 9B MoE 기준 MMLU-Pro 5.7%p, C3 6.4%p, CommonsenseQA 4.3%p 개선했으며 학습 FLOPs는 약 2% 증가, 추론 비용은 동일합니다.

NTP의 one-hot 감독은 표현 공간에 과도한 자유도를 남겨 일반화를 제한한다는 문제를, 연속 공간에서의 밀집 예측으로 해결한 접근입니다.

핵심 결론

  • 태스크MMLU-Pro, C3, CommonsenseQA 등 다양한 벤치마크에서 일관된 성능 향상.
  • 개선폭9B MoE 모델에서 MMLU-Pro 5.7%p, C3 6.4%p, CommonsenseQA 4.3%p 절대 개선.
  • 비용학습 FLOPs 약 2% 증가, 추론 오버헤드는 전혀 없음.

방법

  • 핵심 아이디어다음 토큰의 원-핫 레이블 대신, 동일 모델의 얕은 층에서 뽑은 표현 벡터를 타깃으로 삼아 연속 공간에서 예측하도록 학습.
  • 정규화 효과이론적으로 NITP가 최적화 경관에서 under-constrained 자유도를 줄이고, 표현 공간을 컴팩트하고 구조화된 형태로 유도함을 증명.
  • 구현기존 NTP 파이프라인에 간단한 auxiliary loss를 추가하는 형태로, 코드는 GitHub에 공개.

한계·조건

  • 모델 규모실험은 0.5B~9B 범위에서만 검증되어, 더 큰 모델에서의 효과는 추가 확인 필요.
  • 벤치마크주로 중국어/영어 QA 및 상식 추론에 집중되어, 코드·수학 등 다른 도메인에서의 일반화는 미검증.
  • 코드GitHub에 구현 공개되어 재현 가능.

편집자 한 줄

추론 비용 증가 없이 표현 공간을 정규화한다는 점이 실용적이네요. 다만 9B MoE에서의 개선이 주로 MMLU-Pro에 집중된 점은 후속 연구에서 더 다양한 태스크로 확인해볼 만합니다.

  • #next-token-prediction
  • #representation-learning
  • #self-supervised-learning
  • #moe
  • #shanghai-jiao-tong-university
Shanghai Jiao Tong University SAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —