Papers·1개월 전

InternVideo3: 폐쇄 루프 추론으로 긴 영상 이해 강화 — Video-MME 4.2% 향상

Shanghai AI Lab 팀이 긴-호라이즌 멀티모달 태스크를 위한 InternVideo3 프레임워크를 공개했습니다. 핵심은 Multimodal Contextual Reasoning (MCR)으로, 관찰·명령·추론·도구 동작·메모리를 공유 컨텍스트로 관리하며 폐쇄 루프 추론을 수행합니다. KV-cache 압축을 위한 Multimodal Multi-head Latent Attention (M^2LA) 도입으로 효율성을 확보했고, Video-MME, MLVU, EgoSchema 등에서 기존 대비 4.2% 향상된 성능을 보였습니다. 단, 학습에 상당한 compute가 필요하며 코드는 아직 공개되지 않았습니다.

Shanghai AI Lab 팀이 긴 영상 이해를 위한 폐쇄 루프 추론 프레임워크 InternVideo3를 공개했습니다.

핵심 결론

벤치 — Video-MME 4.2%, MLVU 3.8%, EgoSchema 2.5% 향상 — 기존 오픈소스 멀티모달 모델 대비.
모델 — InternVideo3는 긴-호라이즌 비디오 태스크에서 evidence-grounded 행동을 보여주며, 검색 도구를 결합한 에이전트로도 동작합니다.

방법

MCR — Multimodal Contextual Reasoning — 관찰, 명령, 추론, 도구 동작, 메모리를 하나의 공유 컨텍스트로 관리하며 폐쇄 루프로 이해를 반복 갱신합니다.
M²LA — Multimodal Multi-head Latent Attention — KV-cache 상태를 압축하는 token-preserving reparameterization으로, 전체 토큰 스트림을 유지하면서 메모리 효율을 높입니다.
학습은 continued pretraining, short-to-long SFT, rule-based RL, on-policy distillation의 staged 파이프라인을 따릅니다.

한계·조건

리소스 — 학습에 대규모 compute가 필요하며, 단일 GPU 환경에서의 효율성은 아직 검증되지 않았습니다.
코드 — 현재 논문과 데모만 공개 — 코드와 모델 가중치는 추후 공개 예정입니다.
벤치 — 평가가 주로 비디오 QA 벤치마크에 집중되어 있어, 실제 로봇이나 실시간 상호작용 태스크로의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

MCR의 폐쇄 루프 설계는 긴-호라이즌 태스크에서 직관적으로 매력적이지만, M²LA의 KV-cache 압축이 실제 latency 개선으로 이어지는지는 후속 구현을 지켜봐야 할 만합니다.

#multimodal
#long-context
#video-understanding
#internvideo
#shanghai-ai-lab

Ziang Yan

원문 보기 →

InternVideo3: 폐쇄 루프 추론으로 긴 영상 이해 강화 — Video-MME 4.2% 향상

핵심 결론

방법

한계·조건

Comments