Papers·1개월 전

ReRe: 1인칭 영상 공간 추론을 위한 재추론 프레임워크 — VSI-Bench에서 오픈소스 MLLM 성능을 독점 모델 수준으로

상하이 자오퉁 대학 연구진이 1인칭 영상의 공간 추론을 위해 추론 단계에서 가상 시점 영상을 합성해 초기 가설을 검증·수정하는 ReRe(Reason, then Re-reason) 프레임워크를 제안했습니다. VSI-Bench와 STI-Bench 평가에서 오픈소스 MLLM이 독점 모델과 견줄 만한 성능을 보였습니다. 학습 없이 추론 시에만 적용 가능하다는 점이 특징입니다.

1인칭 영상의 공간 추론은 카메라 궤적에 제약된 증거만으로 판단해야 해서 어렵습니다. ReRe는 추론을 두 단계로 나눠, 초기 가설을 세운 뒤 합성된 새로운 시점의 영상으로 검증·수정합니다.

핵심 결론

벤치 — VSI-Bench와 STI-Bench에서 오픈소스 MLLM(Llava-NeXT, InternVL2 등)의 성능을 독점 모델(GPT-4V, Gemini Pro) 수준으로 끌어올렸습니다.
방식 — 학습 없이 추론 시에만 적용 가능한 training-free 프레임워크로, 기존 MLLM 아키텍처를 수정하지 않습니다.

방법

Reason Phase — 원본 1인칭 영상에서 MLLM이 초기 공간 가설(예: 물체 위치, 거리, 방향)을 생성합니다.
Re-reason Phase — 3D 예측 기반으로 전략적으로 보완적인 새로운 시점의 영상을 합성(Geometry-to-Video 파이프라인)해 MLLM이 초기 가설을 검증·수정합니다.
시점 설계 — 합성 시점은 높은 위치에서 비스듬히 내려다보며 장면 전체를 조망하는 oblique perspective로, 1인칭 영상의 사각지대를 보완합니다.

한계·조건

3D 의존성 — 합성 시점의 품질이 예측된 3D 기하에 의존하므로, 복잡한 장면이나 동적 물체가 많은 경우 오류가 전파될 수 있습니다.
비용 — 추론 시 추가적인 novel-view synthesis 과정이 필요해 지연 시간이 늘어납니다.
공개 — 프로젝트 페이지(https://zhenjiemao.github.io/ReRe/)에서 코드와 데이터가 공개될 예정입니다.

편집자 한 줄

1인칭 영상의 공간 추론에서 '재추론 가능해야 한다'는 직관을 inference-time 프레임워크로 깔끔하게 구현한 점이 인상적입니다. 다만 합성 시점 생성의 오버헤드가 실시간 애플리케이션에 어느 정도 영향을 줄지가 관건이네요.

#spatial-reasoning
#egocentric-video
#mllm
#novel-view-synthesis
#shanghai-jiao-tong-university

Shanghai Jiao Tong University

원문 보기 →

ReRe: 1인칭 영상 공간 추론을 위한 재추론 프레임워크 — VSI-Bench에서 오픈소스 MLLM 성능을 독점 모델 수준으로

핵심 결론

방법

한계·조건

Comments