Papers·3일 전
CollabVR: VLM이 VGM의 비디오 추론 실패를 단계별로 수정 — Gen-ViRe에서 최대 22% 개선

Joowon Kim 팀이 VGM(비디오 생성 모델)의 장기 표류와 중간 시뮬레이션 오류를 해결하는 CollabVR 프레임워크를 제안했습니다. VLM이 매 단계마다 행동을 계획하고 생성된 클립을 검사해 오류를 다음 프롬프트에 반영하는 폐쇄 루프 방식으로, Gen-ViRe와 VBVR-Bench에서 단일 추론, Pass@k, 기존 test-time scaling 대비 일관된 성능 향상을 보였습니다. 특히 추론 미세조정된 VGM 위에 쌓아도 추가 개선이 가능해, 단계별 VLM 감독이 미세조정과 직교적임을 시사합니다. 단, VLM 추론 오버헤드가 추가로 든다는 점은 감안해야 합니다.
- #video-generation
- #vision-language-model
- #reasoning
- #collaboration
- #test-time-scaling
Joowon Kim