Papers·1개월 전

S-Agent: 공간 추론을 위한 에이전틱 패러다임 — VLM에 3D 증거 누적 프레임워크

S-Agent는 연속적인 멀티뷰 이미지와 비디오에서 공간 추론을 수행하는 훈련 없는 에이전틱 패러다임입니다. VLM을 의미론적 플래너로, 공간 도구 계층을 2D→3D 증거 리프터로 구성해 프레임 단위 예측이 아닌 장면 중심 이해를 가능하게 합니다. 멀티뷰 및 비디오 공간 추론 벤치마크에서 기존 VLM을 일관되게 개선했으며, S-Agent로 생성한 300K 궤적으로 파인튜닝한 8B 모델은 GPT-5.4, Gemini 3와 유사한 성능을 냅니다.

연속적인 3D 세계를 추론해야 하는 공간 지능을 위해, S-Agent는 VLM을 의미론적 플래너로 활용하고 공간 도구 계층으로 2D→3D 증거를 누적하는 에이전틱 패러다임을 제안합니다.

핵심 결론

태스크 — 멀티뷰 이미지 및 비디오 기반 공간 추론 (개수, 측정, 방향, 상대 위치 등).
개선폭 — 오픈소스 및 클로즈드소스 VLM 모두에서 훈련 없이 일관된 성능 향상.
SFT 결과 — S-Agent 생성 궤적 300K로 파인튜닝한 8B 모델이 Qwen3-VL-8B를 크게 능가하고 GPT-5.4, Gemini 3와 유사한 성능.

방법

구조 — VLM을 의미론적 플래너로, 공간 도구 계층(2D 검출→3D 리프팅→고수준 지식)을 실행자로 구성.
증거 누적 — 공간 추론을 프레임 단위 예측이 아닌 시공간 증거 누적으로 재정의.
메모리 — Scene Memory(장면 상태 유지)와 Agent Memory(추론 맥락 누적)로 프레임 간 증거 통합.

한계·조건

벤치마크 — 멀티뷰 및 비디오 공간 추론 벤치마크에 특화 — 단일 이미지 태스크는 미포함.
리소스 — 추론 시 VLM 호출 외에 도구 계층 실행이 추가로 필요해 지연 시간 증가 가능.
코드 — Hugging Face에 모델 및 데이터셋 공개 예정 (현재 abstract만 공개).

편집자 한 줄

공간 추론을 '증거 누적' 프레임워크로 재정의한 점이 인상적이며, 훈련 없이도 기존 VLM을 개선하는 실용성이 돋보입니다.

#spatial-reasoning
#vlm
#agent
#3d
#multi-view

Ropedia

원문 보기 →

S-Agent: 공간 추론을 위한 에이전틱 패러다임 — VLM에 3D 증거 누적 프레임워크

핵심 결론

방법

한계·조건

Comments