Papers·6일 전

GQE: GQA 기반 Mixture-of-Experts로 쿼리 헤드 절반만 활성화 — 250M 스케일에서 정확도 유지

GQE는 grouped-query attention(GQA) 위에 mixture-of-experts 레이어를 얹어, 토큰당 쿼리 헤드의 절반만 활성화하면서도 downstream 정확도를 유지합니다. 250M 파라미터, 30B 토큰 학습 조건에서 GQA baseline과 동등한 성능을 보였고, KV cache 이점은 그대로 누릴 수 있습니다. 다만 250M 스케일 단일 실험 결과라, 더 큰 모델에서의 일반화는 추가 검증이 필요합니다.

GQE는 grouped-query attention의 KV cache 효율을 유지하면서 쿼리 헤드 연산만 줄이는 MoE 기반 attention 구조입니다.

핵심 결론

성능 — 250M 파라미터, 30B 토큰 학습에서 GQA baseline과 동등한 downstream 정확도.
효율 — 토큰당 쿼리 헤드 절반만 활성화 — 연산량 절반으로 동일 성능.
호환성 — KV cache 구조는 GQA 그대로라 기존 최적화 기법과 병용 가능.

방법

아이디어 — GQA의 각 그룹 내에서, 라우터가 토큰당 k개의 쿼리 헤드 전문가를 선택. KV 헤드는 dense하게 유지.
설계 — 전체 쿼리 헤드를 MoE로 대체하되, KV 헤드는 그대로 두어 GQA의 KV cache 장점을 보존.
라우터는 top-k 선택을 통해 토큰 난이도에 따라 다른 쿼리 헤드를 활성화하는 식입니다.

한계·조건

스케일 — 250M 파라미터 단일 실험 — 더 큰 모델(1B+)에서의 효과는 아직 확인되지 않았습니다.
학습 — 30B 토큰은 비교적 작은 예산이며, 더 긴 학습 시 추세가 달라질 가능성이 있습니다.
코드 — 논문에 코드 공개 여부가 명시되지 않아 재현성은 불확실합니다.

편집자 한 줄

GQA 위에 MoE를 얹는 발상은 간결하지만, 라우터 부하와 load balancing 이슈가 scale-up 시 변수로 작용할 수 있겠네요.

#mixture-of-experts
#attention
#gqa
#efficiency

FrontiersMind

원문 보기 →

GQE: GQA 기반 Mixture-of-Experts로 쿼리 헤드 절반만 활성화 — 250M 스케일에서 정확도 유지

핵심 결론

방법

한계·조건

Comments