Papers·1개월 전

StateKV — 프레임 수에 선형인 비디오 VLM 추론, 정확도 손실 1% 미만

Stanford 팀이 비디오 VLM의 프레임 수에 따라 제곱 증가하던 self-attention 비용을 선형으로 줄이는 StateKV를 제안했습니다. 고정 용량의 중요도 기반 recurrent state로 cross-frame context를 전달하고, decoding용 full per-frame cache를 유지하는 방식입니다. Long-video 벤치마크 3종, 7개 모델에서 full attention 대비 정확도 손실이 1% 미만이면서 FLOPs를 크게 절감, 추가 학습 없이 기존 모델에 적용 가능합니다.

Stanford 팀이 비디오 VLM 추론 시 프레임 수에 선형으로 동작하는 StateKV를 공개했습니다. 정확도 손실은 1% 미만입니다.

핵심 결론

벤치 — LongVideoBench, EgoSchema, VideoMME에서 full attention 대비 정확도 손실 0.5~0.9%p.
모델 — LLaVA-NeXT-Video, Video-ChatGPT, InternVideo2 등 7개 모델, 3개 패밀리에서 일관된 추세.
효율 — 128프레임 기준 FLOPs 4.2배 감소, latency 2.8배 단축.

방법

아이디어 — Cross-frame context를 고정 용량의 importance-based recurrent state에 압축, linear-time prefill 구현.
Decoding 시에는 full per-frame cache를 유지해 정확도 손실을 최소화한 점이 핵심입니다.
호환성 — Fine-tuning이나 아키텍처 변경 없이 기존 pretrained VLM에 그대로 적용 가능.

한계·조건

제약 — Recurrent state 크기가 고정되어 매우 긴 비디오(수백 프레임)에서는 정보 손실 가능성.
재현 — 코드는 GitHub에 공개 예정, 현재는 논문과 Hugging Face demo만 제공.
벤치마크가 모두 10~30초 길이의 비디오로 구성되어, 더 긴 비디오에서의 일반화는 추가 검증 필요.

편집자 한 줄

추가 학습 없이 기존 모델에 적용 가능한 점이 실용적입니다. 다만 recurrent state 용량이 정해져 있어, 극단적으로 긴 비디오에서는 trade-off가 있을 수 있겠네요.

#video-vlm
#efficiency
#linear-attention
#stanford
#long-video

Stanford University

원문 보기 →

StateKV — 프레임 수에 선형인 비디오 VLM 추론, 정확도 손실 1% 미만

핵심 결론

방법

한계·조건

Comments