Papers·6일 전
GQE: GQA 기반 Mixture-of-Experts로 쿼리 헤드 절반만 활성화 — 250M 스케일에서 정확도 유지

GQE는 grouped-query attention(GQA) 위에 mixture-of-experts 레이어를 얹어, 토큰당 쿼리 헤드의 절반만 활성화하면서도 downstream 정확도를 유지합니다. 250M 파라미터, 30B 토큰 학습 조건에서 GQA baseline과 동등한 성능을 보였고, KV cache 이점은 그대로 누릴 수 있습니다. 다만 250M 스케일 단일 실험 결과라, 더 큰 모델에서의 일반화는 추가 검증이 필요합니다.
GQE는 grouped-query attention의 KV cache 효율을 유지하면서 쿼리 헤드 연산만 줄이는 MoE 기반 attention 구조입니다.
핵심 결론
- 성능 — 250M 파라미터, 30B 토큰 학습에서 GQA baseline과 동등한 downstream 정확도.
- 효율 — 토큰당 쿼리 헤드 절반만 활성화 — 연산량 절반으로 동일 성능.
- 호환성 — KV cache 구조는 GQA 그대로라 기존 최적화 기법과 병용 가능.
방법
- 아이디어 — GQA의 각 그룹 내에서, 라우터가 토큰당 k개의 쿼리 헤드 전문가를 선택. KV 헤드는 dense하게 유지.
- 설계 — 전체 쿼리 헤드를 MoE로 대체하되, KV 헤드는 그대로 두어 GQA의 KV cache 장점을 보존.
- 라우터는 top-k 선택을 통해 토큰 난이도에 따라 다른 쿼리 헤드를 활성화하는 식입니다.
한계·조건
- 스케일 — 250M 파라미터 단일 실험 — 더 큰 모델(1B+)에서의 효과는 아직 확인되지 않았습니다.
- 학습 — 30B 토큰은 비교적 작은 예산이며, 더 긴 학습 시 추세가 달라질 가능성이 있습니다.
- 코드 — 논문에 코드 공개 여부가 명시되지 않아 재현성은 불확실합니다.
편집자 한 줄
GQA 위에 MoE를 얹는 발상은 간결하지만, 라우터 부하와 load balancing 이슈가 scale-up 시 변수로 작용할 수 있겠네요.
- #mixture-of-experts
- #attention
- #gqa
- #efficiency
FrontiersMind