Papers·어제
PF-OPSD: 시각 미래 시뮬레이션과 추상 추론을 통합한 MLLM — VRQABench 10.6% 향상

Tencent 팀이 multimodal LLM이 시각적 미래 시뮬레이션(rollout)을 추상 추론과 통합하는 프레임워크 PF-OPSD를 제안했습니다. 학습 시 ground-truth 미래 비디오를 teacher로 활용해 rollout의 신뢰성을 평가하고, 추론 시에는 미래 정보 없이도 동작하도록 distillation하는 방식입니다. VRQABench와 OpenWorldQA에서 각각 10.6%, 10.9% 성능 향상을 보였으며, rollout이 noisy하거나 모순된 경우에도 강건합니다. 코드와 데이터셋은 공개되었습니다.
Tencent 팀이 multimodal LLM이 시각적 미래 시뮬레이션(rollout)과 추상 추론을 통합하는 프레임워크 PF-OPSD를 공개했습니다.
핵심 결론
- 벤치 — VRQABench와 OpenWorldQA에서 각각 10.6%, 10.9% baseline 대비 향상.
- 강건성 — rollout이 noisy하거나 모순된 경우에도 성능 저하가 적습니다.
방법
- PF-OPSD — 학습 시 ground-truth 미래 비디오를 teacher로 사용해 on-policy concrete-reasoning trajectory를 평가하고, student는 test time에 미래 정보 없이 rollout을 invoke/verify/integrate 하도록 distillation.
- 제어된 구체적 추론(controlled concrete reasoning) 문제를 정의: rollout이 유용한지, 신뢰할 수 있는지, 답변에 어떻게 반영할지 결정.
한계·조건
- 데이터 — VRQABench와 OpenWorldQA는 각각 공간적 lookahead와 물리적 예측을 평가하는 human-verified 벤치마크.
- 코드 — GitHub 공개 (https://github.com/yczhou001/PF-OPSD).
편집자 한 줄
rollout의 신뢰성을 학습 단계에서 평가하는 distillation 접근은 실용적이지만, teacher가 ground-truth 미래를 보는 점이 현실 배포와 괴리가 있을 수 있습니다.
- #multimodal
- #world-model
- #reasoning
- #tencent
- #distillation
Tencent