Papers·1개월 전

AlloSpatial: 에이전틱 프레임워크로 공간 추론 강화 — VSI-Bench 5~18% 향상

MFM이 물리적 공간 추론에서 취약한 근본 원인을 '자기중심 관찰을 전지구적 표상으로 변환하지 못하는 점'으로 보고, 이를 해결하는 AlloSpatial 프레임워크를 제안했습니다. World2Mind라는 인지 매핑 샌드박스로 allocentric spatial tree와 경로 맵을 생성하고, Spatial Reasoning Harness로 도구 사용·판단을 제어합니다. Qwen3-VL에 cold-start RL로 내재화한 결과, VSI-Bench와 MindCube에서 훈련 없이도 기존 모델 대비 5~18% 개선, 시각 입력 없이도 강한 추론이 가능했습니다. 단, 벤치마크 특화 실험으로 실제 로봇 환경에서의 일반화는 추가 검증이 필요합니다.

MFM이 여전히 공간 추론에 약한 이유는 자기중심 시점을 전지구적 좌표계로 변환하지 못하기 때문 — AlloSpatial이 이 문제를 구조적 표상과 도구 사용으로 풀었습니다.

핵심 결론

벤치 — VSI-Bench와 MindCube에서 GPT-4o 등 기존 모델 대비 훈련 없이 5~18% 개선.
훈련 — Qwen3-VL에 cold-start RL로 내재화한 에이전트는 더 큰 일반 모델과 공간 추론 전용 베이스라인을 능가.
특이점 — AST(Allocentric-Spatial Tree)만으로 시각 입력 없이도 강한 추론이 가능하다는 점이 흥미롭습니다.

방법

World2Mind — 에이전트의 자기중심 관찰을 allocentric spatial tree와 경로 맵으로 변환하는 플러그앤플레이 모듈.
Spatial Reasoning Harness — 잡음이 많은 재구성과 모호한 시각 증거 아래서 도구 사용 판단, modality 분리 수집, 기하-의미 중재를 수행.
학습 — Harness-gated trajectory-level reward를 사용한 cold-start RL로 Qwen3-VL에 공간 추론 능력을 내재화.

한계·조건

벤치 — VSI-Bench와 MindCube는 실내 공간 추론 벤치마크로, 실제 로봇 환경에서의 일반화는 추가 검증 필요.
리소스 — World2Mind와 Harness는 추가 추론 비용이 발생하며, 실시간성에 대한 분석은 논문에 포함되지 않았습니다.
코드 — Hugging Face에 모델과 코드가 공개될 예정이라고 합니다.

편집자 한 줄

공간 추론에서 '표상 변환'과 '도구 사용'을 결합한 접근이 인상적입니다. 다만 벤치마크 특화 실험이라 실제 로봇 태스크에서의 격차는 지켜볼 점입니다.

#spatial-reasoning
#multimodal
#allocentric
#qwen
#reinforcement-learning

Shouwei Ruan

원문 보기 →

AlloSpatial: 에이전틱 프레임워크로 공간 추론 강화 — VSI-Bench 5~18% 향상

핵심 결론

방법

한계·조건

Comments