Papers·1개월 전

PF-OPSD: 시각 미래 시뮬레이션과 추상 추론을 통합한 MLLM — VRQABench 10.6% 향상

Tencent 팀이 multimodal LLM이 시각적 미래 시뮬레이션(rollout)을 추상 추론과 통합하는 프레임워크 PF-OPSD를 제안했습니다. 학습 시 ground-truth 미래 비디오를 teacher로 활용해 rollout의 신뢰성을 평가하고, 추론 시에는 미래 정보 없이도 동작하도록 distillation하는 방식입니다. VRQABench와 OpenWorldQA에서 각각 10.6%, 10.9% 성능 향상을 보였으며, rollout이 noisy하거나 모순된 경우에도 강건합니다. 코드와 데이터셋은 공개되었습니다.

Tencent 팀이 multimodal LLM이 시각적 미래 시뮬레이션(rollout)과 추상 추론을 통합하는 프레임워크 PF-OPSD를 공개했습니다.

핵심 결론

벤치 — VRQABench와 OpenWorldQA에서 각각 10.6%, 10.9% baseline 대비 향상.
강건성 — rollout이 noisy하거나 모순된 경우에도 성능 저하가 적습니다.

방법

PF-OPSD — 학습 시 ground-truth 미래 비디오를 teacher로 사용해 on-policy concrete-reasoning trajectory를 평가하고, student는 test time에 미래 정보 없이 rollout을 invoke/verify/integrate 하도록 distillation.
제어된 구체적 추론(controlled concrete reasoning) 문제를 정의: rollout이 유용한지, 신뢰할 수 있는지, 답변에 어떻게 반영할지 결정.

한계·조건

데이터 — VRQABench와 OpenWorldQA는 각각 공간적 lookahead와 물리적 예측을 평가하는 human-verified 벤치마크.
코드 — GitHub 공개 (https://github.com/yczhou001/PF-OPSD).

편집자 한 줄

rollout의 신뢰성을 학습 단계에서 평가하는 distillation 접근은 실용적이지만, teacher가 ground-truth 미래를 보는 점이 현실 배포와 괴리가 있을 수 있습니다.

#multimodal
#world-model
#reasoning
#tencent
#distillation

Tencent

원문 보기 →

PF-OPSD: 시각 미래 시뮬레이션과 추상 추론을 통합한 MLLM — VRQABench 10.6% 향상

핵심 결론

방법

한계·조건

Comments