Papers·어제
OpenGVLab, 미래 비디오 예측에서 latent visual reasoning 으로 FutureBench 85.4 달성

OpenGVLab 이 비디오 이벤트 예측(VEP)을 위해 interleaved latent visual reasoning 프레임워크 Future-L1 을 제안했습니다. MLLM 이 autoregressive decoding 중 언어 토큰과 연속적인 latent visual span 을 번갈아 생성하도록 하여, 텍스트로 중간 추론을 할 때 손실되는 미세한 움직임·기하·상호작용 정보를 보존합니다. FutureBench 에서 Qwen3-VL-8B 를 61.0 → 85.4 로 끌어올렸고, TwiFF-Bench 평균 점수도 2.44 → 3.04 로 개선했습니다. 단, Future-L1-50K 데이터셋과 LA-DAPO RL 학습이 필요해 추가 리소스가 듭니다.
OpenGVLab 이 비디오 이벤트 예측을 위해 latent visual reasoning 을 도입한 Future-L1 을 공개했습니다.
핵심 결론
- 벤치 — FutureBench 에서 Qwen3-VL-8B 를 61.0 → 85.4 로 개선, 기존 최고 Video-CoE 보다 10.4 포인트 높습니다.
- TwiFF-Bench — 평균 점수 2.44 → 3.04 로 향상, 특히 미래 상태 예측 태스크에서 큰 폭의 개선을 보였습니다.
방법
- Interleaved latent — MLLM 이 autoregressive decoding 중 언어 토큰과 연속적인 latent visual span 을 번갈아 생성하도록 설계했습니다.
- 데이터 — 미래 시각적 힌트가 예측에 도움이 되는 예제를 선별해 Future-L1-50K 데이터셋을 구축, latent state 를 미래 프레임 임베딩에 정렬했습니다.
- RL 최적화 — LA-DAPO 라는 latent-aware RL objective 로 outcome-contrastive 와 temporal-diversity reward 를 사용해 latent trajectory 를 최적화했습니다.
한계·조건
- 리소스 — Future-L1-50K 데이터 구축과 LA-DAPO RL 학습이 필요해 추가적인 compute 와 데이터 수집 비용이 듭니다.
- 일반화 — 현재는 Qwen3-VL-8B 기반으로만 검증되었으며, 다른 아키텍처나 태스크로의 일반화는 추가 연구가 필요합니다.
- 코드 — 코드 및 데이터셋 공개 여부는 아직 명시되지 않았습니다.
편집자 한 줄
텍스트 기반 중간 추론 대신 latent space 에서 시각적 의미를 보존하는 접근은 비디오 추론에서 유의미한 방향입니다.
- #video-prediction
- #latent-reasoning
- #mllm
- #opengvlab
OpenGVLab