← Back to feed
Papers·1주 전

NVIDIA SparDA — Forecast projection 으로 sparse attention 의 KV cache 오프로드 병목 해소, decode 최대 1.7x

NVIDIA SparDA — Forecast projection 으로 sparse attention 의 KV cache 오프로드 병목 해소, decode 최대 1.7x

NVIDIA 연구팀이 sparse attention 에서 KV cache 를 CPU 로 오프로드할 때 PCIe 병목을 해결하는 SparDA 를 제안했습니다. 기존 Query/Key/Value 외에 Forecast 라는 네 번째 projection 을 추가해 다음 layer 의 KV 블록을 미리 예측, prefetch 와 연산을 중첩시키는 방식입니다. GQA 에서는 Forecast head 를 group 당 하나씩만 두어 overhead 를 최소화했고, 두 sparse-pretrained 8B 모델에서 prefill 1.25x, decode 1.7x 속도 향상을 보였습니다. 단, Forecast 는 오프로드 상황에서만 이득이며, 코드는 GitHub 에 공개되었습니다.

NVIDIA 가 sparse attention 의 KV cache 오프로드 병목을 Forecast projection 으로 해결하는 SparDA 를 공개했습니다.

핵심 결론

  • 벤치두 sparse-pretrained 8B 모델에서 prefill 1.25x, decode 1.7x 속도 향상, 오프로드 없는 sparse baseline 대비 decode throughput 최대 5.3x.
  • 정확도기존 sparse attention 과 동등하거나 소폭 개선, 파라미터 증가는 0.5% 미만.

방법

  • Forecast projectionQ/K/V 외에 네 번째 projection 을 추가해 다음 layer 의 KV 블록 필요도를 예측, CPU-to-GPU prefetch 를 현재 layer 실행과 중첩시킵니다.
  • GQA 호환Forecast head 를 GQA group 당 하나씩만 두어 multi-head selector 대비 selection overhead 를 줄였습니다.
  • 학습은 기존 selector 의 attention 분포를 distillation 하는 방식으로, 기존 sparse-pretrained 모델에 바로 적용 가능합니다.

한계·조건

  • 환경오프로드 상황에서만 이득 — GPU memory 가 충분하면 Forecast 없이도 동등한 성능입니다.
  • 모델sparse-pretrained 모델에 한정되며, dense 모델에 적용하려면 추가 학습이 필요합니다.
  • 코드GitHub (NVlabs/SparDA) 공개 — 8B 모델 기준 실험 재현 가능.

편집자 한 줄

Forecast projection 이 sparse attention 의 오프로드 병목을 깔끔하게 우회한 점이 인상적입니다. 다만 sparse-pretrained 모델에 의존하는 점은 적용 범위를 제한합니다.

  • #sparse-attention
  • #kv-cache
  • #nvidia
  • #long-context
  • #inference
NVIDIA
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —