Papers·5일 전
HydraHead: attention 혼성화를 head 축으로 — 512K 컨텍스트에서 69% 개선

Zhentao Tan 연구팀이 FA(Full Attention)와 LA(Linear Attention)를 head 단위로 혼성화하는 HydraHead 아키텍처를 제안했습니다. 해석 가능성 분석을 통해 검색-중요 head만 선별해 FA를 유지하고, scale-normalized fusion 모듈로 분포 차이를 조정합니다. 15B 토큰만 학습해 512K 컨텍스트에서 baseline 대비 69% 이상 개선, 동급 Qwen3.5에 근접한 성능을 냈습니다. 단, 세 단계 전이 파이프라인(parameter reuse + distillation)이 필요해 구현 복잡도가 높은 편입니다.
HydraHead는 attention 혼성화를 head 축에서 수행해 512K 컨텍스트에서 69% 이상의 성능 향상을 달성했습니다.
핵심 결론
- 태스크 — long-context 처리에서 FA와 LA를 head 단위로 혼성화.
- 성능 — 15B 토큰 학습으로 512K 컨텍스트에서 baseline 대비 69% 개선, Qwen3.5(256K native)에 근접.
- 효율 — 해석 가능성 기반 head 선별로 7:1 LA:FA 비율에서 3:1 layer-wise hybrid와 동등한 성능.
방법
- head 선별 — layer 내 head별 functional specialization을 분석해 retrieval-critical head만 FA로 유지.
- fusion 모듈 — FA와 LA head 출력의 분포 차이를 조정하는 scale-normalized fusion 도입.
- 전이 파이프라인 — 세 단계(parameter reuse + distillation)로 학습 오버헤드를 최소화.
한계·조건
- 구현 복잡도 — 세 단계 전이 파이프라인이 필요해 단순 fine-tuning보다 설정이 까다롭습니다.
- 벤치마크 — 주로 long-context QA에 초점, 일반 reasoning 태스크에서의 격차는 추가 검증이 필요.
- 코드 — 현재 Hugging Face papers 페이지에 abstract만 공개, 코드 및 모델 가중치는 미공개.
편집자 한 줄
head 단위 혼성화는 layer 단위보다 더 세밀한 제어를 가능하게 하지만, 선별 기준의 일반화 가능성은 더 많은 모델에서 확인해볼 만합니다.
- #attention
- #hybrid-attention
- #long-context
- #linear-attention
- #interpretability
Zhentao Tan