Papers·5일 전
AdaCodec: 비디오 MLLM의 시각 토큰을 1/7로 줄이는 예측적 비디오 코덱 — 11개 벤치마크에서 RGB 기준 대비 개선

Qwen3-VL-8B 기반 AdaCodec은 비디오의 시간적 중복성을 활용해 참조 프레임을 조건부로만 전송하고, 변화만 P-토큰으로 압축합니다. 11개 벤치마크에서 동일 토큰 예산 기준 RGB baseline을 능가했으며, 1/7 토큰(32k)으로도 224k baseline을 모든 장편 비디오 벤치마크에서 상회했습니다. 첫 토큰까지 지연 시간이 9.26초에서 1.62초로 단축된 점이 실용적입니다.
비디오 MLLM이 프레임마다 독립적으로 RGB 이미지를 인코딩하는 비효율을, 예측적 비주얼 코덱인 AdaCodec으로 해결했습니다.
핵심 결론
- 성능 — 11개 벤치마크 전반에서 동일 시각 토큰 예산 기준 Qwen3-VL-8B RGB baseline 대비 평균 점수 향상.
- 효율 — 1/7 토큰(32k)으로도 224k baseline을 모든 장편 비디오 벤치마크에서 능가.
- 지연 — Time-to-first-token이 9.26초에서 1.62초로 83% 단축.
방법
- 예측적 코덱 — 참조 프레임은 조건부 예측 비용이 높을 때만 전체 시각 토큰을 할당하고, 그 외에는 움직임 및 예측 잔차를 P-토큰으로 압축.
- AdaCodec — Qwen3-VL-8B 위에 경량 모듈로 구현되어 기존 아키텍처 변경 없이 적용 가능.
한계·조건
- 벤치마크 — 장편 비디오와 일반 비디오 벤치마크 모두 포함했으나, 극단적 장면 전환(컷)이 잦은 비디오에서는 이점이 줄어들 가능성.
- 코드 — Hugging Face에 모델 및 코드 공개 예정 (현재 abstract만 공개).
편집자 한 줄
비디오 MLLM의 토큰 병목을 근본적으로 해결한 접근이라, 실시간 스트리밍이나 엣지 디바이스로의 확장이 기대됩니다.
- #video-mllm
- #token-compression
- #qwen
- #efficiency
Haowen Hou