← Back to feed
Papers·5일 전

HydraHead: attention 혼성화를 head 축으로 — 512K 컨텍스트에서 69% 개선

HydraHead: attention 혼성화를 head 축으로 — 512K 컨텍스트에서 69% 개선

Zhentao Tan 연구팀이 FA(Full Attention)와 LA(Linear Attention)를 head 단위로 혼성화하는 HydraHead 아키텍처를 제안했습니다. 해석 가능성 분석을 통해 검색-중요 head만 선별해 FA를 유지하고, scale-normalized fusion 모듈로 분포 차이를 조정합니다. 15B 토큰만 학습해 512K 컨텍스트에서 baseline 대비 69% 이상 개선, 동급 Qwen3.5에 근접한 성능을 냈습니다. 단, 세 단계 전이 파이프라인(parameter reuse + distillation)이 필요해 구현 복잡도가 높은 편입니다.

HydraHead는 attention 혼성화를 head 축에서 수행해 512K 컨텍스트에서 69% 이상의 성능 향상을 달성했습니다.

핵심 결론

  • 태스크long-context 처리에서 FA와 LA를 head 단위로 혼성화.
  • 성능15B 토큰 학습으로 512K 컨텍스트에서 baseline 대비 69% 개선, Qwen3.5(256K native)에 근접.
  • 효율해석 가능성 기반 head 선별로 7:1 LA:FA 비율에서 3:1 layer-wise hybrid와 동등한 성능.

방법

  • head 선별layer 내 head별 functional specialization을 분석해 retrieval-critical head만 FA로 유지.
  • fusion 모듈FA와 LA head 출력의 분포 차이를 조정하는 scale-normalized fusion 도입.
  • 전이 파이프라인세 단계(parameter reuse + distillation)로 학습 오버헤드를 최소화.

한계·조건

  • 구현 복잡도세 단계 전이 파이프라인이 필요해 단순 fine-tuning보다 설정이 까다롭습니다.
  • 벤치마크주로 long-context QA에 초점, 일반 reasoning 태스크에서의 격차는 추가 검증이 필요.
  • 코드현재 Hugging Face papers 페이지에 abstract만 공개, 코드 및 모델 가중치는 미공개.

편집자 한 줄

head 단위 혼성화는 layer 단위보다 더 세밀한 제어를 가능하게 하지만, 선별 기준의 일반화 가능성은 더 많은 모델에서 확인해볼 만합니다.

  • #attention
  • #hybrid-attention
  • #long-context
  • #linear-attention
  • #interpretability
Zhentao Tan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —