Papers·1개월 전

Astra: VLM이 상상으로 공간 추론 — MMSI-Bench 29.8→38.8, MindCube 36.8→42.7

HKU LIU Vision Group이 VLM에 행동 조건부 시각적 상상을 추가한 에이전틱 프레임워크 Astra를 제안했습니다. RL로 학습된 VLM 정책 Astra-VL과 Bagel 기반 세계 시뮬레이터 Astra-WM을 결합해, 제한된 관찰만으로도 보지 못한 레이아웃을 추론하고 교차 뷰 일관성을 유지합니다. MMSI-Bench에서 Qwen3-VL 백본을 29.8에서 38.8로, MindCube에서 36.8에서 42.7로 개선했으며, 시뮬레이터 증강 Gemini-3-Flash도 45.1에서 49.5로 향상시켰습니다. 단, 시뮬레이터 호출 시점 학습을 위한 2단계 RL 커리큘럼이 필요하고, 모든 공간 추론 작업에 일반화되지는 않을 수 있습니다.

VLM이 관찰된 이미지에만 의존하지 않고, 세계 시뮬레이터와 상호작용하며 '상상'을 통해 공간 추론을 수행하는 프레임워크가 나왔습니다.

핵심 결론

태스크 — 제한된 에고센트릭 관찰만으로 보지 못한 레이아웃 추론, 교차 뷰 일관성 유지, 대체 시점 추론.
벤치마크 — MMSI-Bench: Qwen3-VL 29.8→38.8 (+9.0), Gemini-3-Flash + 시뮬레이터 45.1→49.5 (+4.4). MindCube: 36.8→42.7 (+5.9).
저자 — HKU LIU Vision Group.

방법

Astra-VL — RL로 학습된 VLM 정책. 세계 시뮬레이터를 호출할지 직접 답변할지 결정합니다.
Astra-WM — Bagel 기반 세계 시뮬레이터. 컨텍스트 이미지와 자연어 카메라 움직임으로 새로운 시점의 관찰을 생성합니다.
뷰 일관성 학습 — 포즈와 콘텐츠 일관성을 유지하도록 view consistency tuning 적용.
2단계 RL 커리큘럼 — 1단계: 도구 사용 탐색 안정화. 2단계: 상상 관찰이 직접 답변보다 나을 때만 시뮬레이터를 호출하도록 학습.

한계·조건

계산량 — 시뮬레이터 호출 및 RL 학습에 상당한 자원 필요. 단일 GPU 환경에서는 실용적이지 않을 수 있습니다.
일반화 — MMSI-Bench와 MindCube에 특화된 평가. 다른 유형의 공간 추론(예: 3D 객체 조작)으로의 확장성은 아직 검증되지 않았습니다.
코드 — Hugging Face에 모델 및 코드 공개 예정이라고 밝혔으나 현재는 논문만 공개.

편집자 한 줄

상상 기반 추론이라는 아이디어 자체는 흥미롭지만, 시뮬레이터 품질과 호출 정책이 성능을 크게 좌우할 것으로 보입니다. 실제 응용에서는 지연 시간과 계산 비용을 고려해야 할 만합니다.

#vlm
#spatial-reasoning
#world-model
#rl
#hku

HKU LIU Vision Group

원문 보기 →

Astra: VLM이 상상으로 공간 추론 — MMSI-Bench 29.8→38.8, MindCube 36.8→42.7

핵심 결론

방법

한계·조건

Comments