← Back to feed
Papers·5일 전

CompactAttention: 청크 프리필에서 128K 컨텍스트 2.72배 속도 향상

CompactAttention: 청크 프리필에서 128K 컨텍스트 2.72배 속도 향상

서울대 VLSI Lab이 청크 프리필 환경에서 attention 연산을 가속하는 CompactAttention을 제안했습니다. 기존 sparse attention 방식은 청크 단위 쿼리에 비효율적이었는데, CompactAttention은 2D 블록-스파스 마스크를 KV 선택 신호로 활용해 GQA-aware 블록 테이블을 구성, KV compaction 없이 in-place 접근을 가능하게 했습니다. LLaMA-3.1-8B-Instruct 기준 RULER 벤치마크에서 dense attention에 가까운 정확도를 유지하면서 128K 컨텍스트에서 최대 2.72배 attention 속도 향상을 보였습니다.

  • #attention
  • #chunked-prefill
  • #long-context
  • #llm
  • #seoul-national-university
Seoul National University VLSI Lab

Comments

— 첫 댓글을 남겨보세요 —