Papers·1개월 전

MISA — DeepSeek Sparse Attention 인덱서를 8개 헤드로 줄이며 성능 유지, LongBench에서 DSA와 동등

Peking University 팀이 DeepSeek Sparse Attention(DSA)의 인덱서를 MoE로 대체한 MISA를 제안했습니다. 8개 활성 헤드만으로 DSA의 64개 헤드와 동등한 성능을 내며, H200에서 3.82배 속도 향상을 보입니다. LongBench에서 DeepSeek-V3.2와 GLM-5 모두 DSA와 동등하거나 더 나은 성능을 보였고, 128K Needle-in-a-Haystack도 완전히 유지합니다. 추가 학습 없이 drop-in replacement로 사용 가능한 점이 실용적입니다.

#sparse-attention
#deepseek
#mixture-of-experts
#long-context
#peking-university

Peking University

원문 보기 →

MISA — DeepSeek Sparse Attention 인덱서를 8개 헤드로 줄이며 성능 유지, LongBench에서 DSA와 동등

Comments