← Back to feed
Papers·5일 전

AdaCodec: 비디오 MLLM의 시각 토큰을 1/7로 줄이는 예측적 비디오 코덱 — 11개 벤치마크에서 RGB 기준 대비 개선

AdaCodec: 비디오 MLLM의 시각 토큰을 1/7로 줄이는 예측적 비디오 코덱 — 11개 벤치마크에서 RGB 기준 대비 개선

Qwen3-VL-8B 기반 AdaCodec은 비디오의 시간적 중복성을 활용해 참조 프레임을 조건부로만 전송하고, 변화만 P-토큰으로 압축합니다. 11개 벤치마크에서 동일 토큰 예산 기준 RGB baseline을 능가했으며, 1/7 토큰(32k)으로도 224k baseline을 모든 장편 비디오 벤치마크에서 상회했습니다. 첫 토큰까지 지연 시간이 9.26초에서 1.62초로 단축된 점이 실용적입니다.

비디오 MLLM이 프레임마다 독립적으로 RGB 이미지를 인코딩하는 비효율을, 예측적 비주얼 코덱인 AdaCodec으로 해결했습니다.

핵심 결론

  • 성능11개 벤치마크 전반에서 동일 시각 토큰 예산 기준 Qwen3-VL-8B RGB baseline 대비 평균 점수 향상.
  • 효율1/7 토큰(32k)으로도 224k baseline을 모든 장편 비디오 벤치마크에서 능가.
  • 지연Time-to-first-token이 9.26초에서 1.62초로 83% 단축.

방법

  • 예측적 코덱참조 프레임은 조건부 예측 비용이 높을 때만 전체 시각 토큰을 할당하고, 그 외에는 움직임 및 예측 잔차를 P-토큰으로 압축.
  • AdaCodecQwen3-VL-8B 위에 경량 모듈로 구현되어 기존 아키텍처 변경 없이 적용 가능.

한계·조건

  • 벤치마크장편 비디오와 일반 비디오 벤치마크 모두 포함했으나, 극단적 장면 전환(컷)이 잦은 비디오에서는 이점이 줄어들 가능성.
  • 코드Hugging Face에 모델 및 코드 공개 예정 (현재 abstract만 공개).

편집자 한 줄

비디오 MLLM의 토큰 병목을 근본적으로 해결한 접근이라, 실시간 스트리밍이나 엣지 디바이스로의 확장이 기대됩니다.

  • #video-mllm
  • #token-compression
  • #qwen
  • #efficiency
Haowen Hou
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —