Papers·2일 전
LLaVA-OV-2: codec-stream tokenization 으로 긴 영상 이해 + temporal grounding 74.9 mAP

LLaVA-OneVision 시리즈의 최신 모델 LLaVA-OV-2가 공개되었습니다. 핵심은 압축 비디오를 연속 비트코스트 스트림으로 보고, 비트코스트 동역학으로 adaptive temporal group을, motion-residual cue로 salient spatial evidence를 추출해 compact visual canvas에 할당하는 codec-stream tokenization입니다. 이를 통해 고정된 GOP 대비 장기 영상에서 안정적인 token 압축이 가능해졌고, JumpScore 벤치마크에서 8B 모델이 74.9 mAP를 기록해 Qwen3-VL-8B(30.1)를 크게 앞질렀습니다. 단, 8M+4M 샘플의 대규모 데이터로 학습되어 compute 요구가 상당합니다.
LLaVA-OneVision-2 (LLaVA-OV-2)는 codec-stream tokenization을 도입해 긴 영상 이해와 temporal grounding에서 강력한 성능을 보이는 비전-언어 모델입니다.
핵심 결론
- 벤치 — JumpScore mAP 74.9 (8B 모델), Qwen3-VL-8B 30.1 대비 +44.8점.
- 표준 벤치 — 비디오 태스크 평균 +4.3점, 공간 태스크 +5.3점, 트래킹 J&F +15.6점으로 Qwen3-VL-8B를 상회.
- 통합 능력 — 비디오 이해, 시간적/공간적 grounding, 조작 추적 추론을 단일 모델로 처리.
방법
- codec-stream tokenization — 압축 비디오를 연속 비트코스트 스트림으로 간주, bit-cost dynamics로 adaptive temporal group을, motion-residual cue로 salient spatial evidence를 추출해 compact canvas에 할당.
- Windowed Attention — 네이티브 해상도를 유지하면서 효율적인 local computation을 위해 도입.
- 3D RoPE — codec canvas, sampled frame, image를 통합 시공간 좌표계에 배치.
- 데이터 — 약 8M 재캡션 비디오 샘플(pretrain) + 4M 공간 코퍼스(fine-tune)로 대규모 open supervision.
한계·조건
- 데이터 규모 — 8M+4M 샘플로 학습되어 compute 요구가 상당하며, 재현에 대규모 자원이 필요.
- 벤치 신규성 — JumpScore는 고빈도·밀집 반복 동작에 특화된 새 벤치마크로, 기존 평가와의 직접 비교에 주의.
- 코드 공개 — 현재 abstract와 figure만 공개, 코드 및 모델 가중치 공개 여부는 미정.
편집자 한 줄
codec-stream tokenization은 긴 영상에서 token 예산을 사건 중심으로 배분하는 아이디어가 깔끔합니다. 다만 대규모 데이터 의존도가 높아, 적은 데이터로도 일반화될지는 추가 검증이 필요해 보입니다.
- #llava
- #vision-language
- #video-understanding
- #temporal-grounding
- #token-compression
Xiang An