Papers·1개월 전

Peking University, MLA의 추론 경로를 GQA로 확장한 GQLA — H20에서 MTP 이득, KV cache 71.9% 압축

Peking University 팀이 DeepSeek-V2/V3에 쓰인 Multi-head Latent Attention(MLA)의 단일 추론 경로(MQA-absorb)를 GQA 경로로 확장한 Group-Query Latent Attention(GQLA)을 제안했습니다. GQLA는 같은 가중치로 H100에서는 MLA와 동일한 MQA-absorb 경로, H20 같은 commodity GPU에서는 GQA+MTP 경로를 선택할 수 있어 추가 학습이나 커스텀 커널 없이 하드웨어별로 roofline을 맞출 수 있습니다. TransGQLA를 통해 LLaMA-3-8B의 GQA 체크포인트를 변환한 결과, MQA-absorb 경로에서 KV cache를 GQA 대비 28.125%로 압축하면서도 GQA 경로의 트래픽 구조는 유지합니다. 단, 이 방식은 export 제한이 있는 H20 같은 GPU에서 MTP 이득을 얻기 위한 설계로, H100-class에서는 MLA와 동일한 성능입니다.

#attention
#kv-cache
#deepseek
#peking-university
#gqa

Peking University

원문 보기 →

Peking University, MLA의 추론 경로를 GQA로 확장한 GQLA — H20에서 MTP 이득, KV cache 71.9% 압축

Comments