Papers·어제
S-Agent: 공간 추론을 위한 에이전틱 패러다임 — VLM에 3D 증거 누적 프레임워크

S-Agent는 연속적인 멀티뷰 이미지와 비디오에서 공간 추론을 수행하는 훈련 없는 에이전틱 패러다임입니다. VLM을 의미론적 플래너로, 공간 도구 계층을 2D→3D 증거 리프터로 구성해 프레임 단위 예측이 아닌 장면 중심 이해를 가능하게 합니다. 멀티뷰 및 비디오 공간 추론 벤치마크에서 기존 VLM을 일관되게 개선했으며, S-Agent로 생성한 300K 궤적으로 파인튜닝한 8B 모델은 GPT-5.4, Gemini 3와 유사한 성능을 냅니다.
연속적인 3D 세계를 추론해야 하는 공간 지능을 위해, S-Agent는 VLM을 의미론적 플래너로 활용하고 공간 도구 계층으로 2D→3D 증거를 누적하는 에이전틱 패러다임을 제안합니다.
핵심 결론
- 태스크 — 멀티뷰 이미지 및 비디오 기반 공간 추론 (개수, 측정, 방향, 상대 위치 등).
- 개선폭 — 오픈소스 및 클로즈드소스 VLM 모두에서 훈련 없이 일관된 성능 향상.
- SFT 결과 — S-Agent 생성 궤적 300K로 파인튜닝한 8B 모델이 Qwen3-VL-8B를 크게 능가하고 GPT-5.4, Gemini 3와 유사한 성능.
방법
- 구조 — VLM을 의미론적 플래너로, 공간 도구 계층(2D 검출→3D 리프팅→고수준 지식)을 실행자로 구성.
- 증거 누적 — 공간 추론을 프레임 단위 예측이 아닌 시공간 증거 누적으로 재정의.
- 메모리 — Scene Memory(장면 상태 유지)와 Agent Memory(추론 맥락 누적)로 프레임 간 증거 통합.
한계·조건
- 벤치마크 — 멀티뷰 및 비디오 공간 추론 벤치마크에 특화 — 단일 이미지 태스크는 미포함.
- 리소스 — 추론 시 VLM 호출 외에 도구 계층 실행이 추가로 필요해 지연 시간 증가 가능.
- 코드 — Hugging Face에 모델 및 데이터셋 공개 예정 (현재 abstract만 공개).
편집자 한 줄
공간 추론을 '증거 누적' 프레임워크로 재정의한 점이 인상적이며, 훈련 없이도 기존 VLM을 개선하는 실용성이 돋보입니다.
- #spatial-reasoning
- #vlm
- #agent
- #3d
- #multi-view
Ropedia