Papers·4일 전

Momentum DeltaNet — 선형 attention 에 momentum 을 더해 1.3B 까지 Transformer 대비 성능 개선

Yulong Huang 팀이 선형 attention 모델에 momentum 기반 SGD 를 적용한 Momentum DeltaNet (MDN) 을 제안했습니다. 기존 Mamba2, GDN 등이 naive SGD 업데이트로 정보 소실이 빠른 문제를, 청크 단위 병렬 알고리즘과 2차 동역학계 분석을 통해 안정적인 gating 제약 조건을 설계해 해결했습니다. 400M, 1.3B 파라미터 모델에서 Transformer, Mamba2, GDN 대비 다양한 downstream 벤치마크에서 일관된 성능 향상을 보였으며, Triton 커널 덕분에 Mamba2, KDA 수준의 훈련 처리량을 유지합니다. 코드는 공개되었습니다.

#linear-attention
#momentum
#mamba
#triton
#efficient-transformers

Yulong Huang

원문 보기 →

Momentum DeltaNet — 선형 attention 에 momentum 을 더해 1.3B 까지 Transformer 대비 성능 개선

Comments