← Back to feed
Papers·4일 전

Astra: VLM이 상상으로 공간 추론 — MMSI-Bench 29.8→38.8, MindCube 36.8→42.7

Astra: VLM이 상상으로 공간 추론 — MMSI-Bench 29.8→38.8, MindCube 36.8→42.7

HKU LIU Vision Group이 VLM에 행동 조건부 시각적 상상을 추가한 에이전틱 프레임워크 Astra를 제안했습니다. RL로 학습된 VLM 정책 Astra-VL과 Bagel 기반 세계 시뮬레이터 Astra-WM을 결합해, 제한된 관찰만으로도 보지 못한 레이아웃을 추론하고 교차 뷰 일관성을 유지합니다. MMSI-Bench에서 Qwen3-VL 백본을 29.8에서 38.8로, MindCube에서 36.8에서 42.7로 개선했으며, 시뮬레이터 증강 Gemini-3-Flash도 45.1에서 49.5로 향상시켰습니다. 단, 시뮬레이터 호출 시점 학습을 위한 2단계 RL 커리큘럼이 필요하고, 모든 공간 추론 작업에 일반화되지는 않을 수 있습니다.

VLM이 관찰된 이미지에만 의존하지 않고, 세계 시뮬레이터와 상호작용하며 '상상'을 통해 공간 추론을 수행하는 프레임워크가 나왔습니다.

핵심 결론

  • 태스크제한된 에고센트릭 관찰만으로 보지 못한 레이아웃 추론, 교차 뷰 일관성 유지, 대체 시점 추론.
  • 벤치마크MMSI-Bench: Qwen3-VL 29.8→38.8 (+9.0), Gemini-3-Flash + 시뮬레이터 45.1→49.5 (+4.4). MindCube: 36.8→42.7 (+5.9).
  • 저자HKU LIU Vision Group.

방법

  • Astra-VLRL로 학습된 VLM 정책. 세계 시뮬레이터를 호출할지 직접 답변할지 결정합니다.
  • Astra-WMBagel 기반 세계 시뮬레이터. 컨텍스트 이미지와 자연어 카메라 움직임으로 새로운 시점의 관찰을 생성합니다.
  • 뷰 일관성 학습포즈와 콘텐츠 일관성을 유지하도록 view consistency tuning 적용.
  • 2단계 RL 커리큘럼1단계: 도구 사용 탐색 안정화. 2단계: 상상 관찰이 직접 답변보다 나을 때만 시뮬레이터를 호출하도록 학습.

한계·조건

  • 계산량시뮬레이터 호출 및 RL 학습에 상당한 자원 필요. 단일 GPU 환경에서는 실용적이지 않을 수 있습니다.
  • 일반화MMSI-Bench와 MindCube에 특화된 평가. 다른 유형의 공간 추론(예: 3D 객체 조작)으로의 확장성은 아직 검증되지 않았습니다.
  • 코드Hugging Face에 모델 및 코드 공개 예정이라고 밝혔으나 현재는 논문만 공개.

편집자 한 줄

상상 기반 추론이라는 아이디어 자체는 흥미롭지만, 시뮬레이터 품질과 호출 정책이 성능을 크게 좌우할 것으로 보입니다. 실제 응용에서는 지연 시간과 계산 비용을 고려해야 할 만합니다.

  • #vlm
  • #spatial-reasoning
  • #world-model
  • #rl
  • #hku
HKU LIU Vision Group
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —