← Back to feed
Papers·어제

S-Agent: 공간 추론을 위한 에이전틱 패러다임 — VLM에 3D 증거 누적 프레임워크

S-Agent: 공간 추론을 위한 에이전틱 패러다임 — VLM에 3D 증거 누적 프레임워크

S-Agent는 연속적인 멀티뷰 이미지와 비디오에서 공간 추론을 수행하는 훈련 없는 에이전틱 패러다임입니다. VLM을 의미론적 플래너로, 공간 도구 계층을 2D→3D 증거 리프터로 구성해 프레임 단위 예측이 아닌 장면 중심 이해를 가능하게 합니다. 멀티뷰 및 비디오 공간 추론 벤치마크에서 기존 VLM을 일관되게 개선했으며, S-Agent로 생성한 300K 궤적으로 파인튜닝한 8B 모델은 GPT-5.4, Gemini 3와 유사한 성능을 냅니다.

연속적인 3D 세계를 추론해야 하는 공간 지능을 위해, S-Agent는 VLM을 의미론적 플래너로 활용하고 공간 도구 계층으로 2D→3D 증거를 누적하는 에이전틱 패러다임을 제안합니다.

핵심 결론

  • 태스크멀티뷰 이미지 및 비디오 기반 공간 추론 (개수, 측정, 방향, 상대 위치 등).
  • 개선폭오픈소스 및 클로즈드소스 VLM 모두에서 훈련 없이 일관된 성능 향상.
  • SFT 결과S-Agent 생성 궤적 300K로 파인튜닝한 8B 모델이 Qwen3-VL-8B를 크게 능가하고 GPT-5.4, Gemini 3와 유사한 성능.

방법

  • 구조VLM을 의미론적 플래너로, 공간 도구 계층(2D 검출→3D 리프팅→고수준 지식)을 실행자로 구성.
  • 증거 누적공간 추론을 프레임 단위 예측이 아닌 시공간 증거 누적으로 재정의.
  • 메모리Scene Memory(장면 상태 유지)와 Agent Memory(추론 맥락 누적)로 프레임 간 증거 통합.

한계·조건

  • 벤치마크멀티뷰 및 비디오 공간 추론 벤치마크에 특화 — 단일 이미지 태스크는 미포함.
  • 리소스추론 시 VLM 호출 외에 도구 계층 실행이 추가로 필요해 지연 시간 증가 가능.
  • 코드Hugging Face에 모델 및 데이터셋 공개 예정 (현재 abstract만 공개).

편집자 한 줄

공간 추론을 '증거 누적' 프레임워크로 재정의한 점이 인상적이며, 훈련 없이도 기존 VLM을 개선하는 실용성이 돋보입니다.

  • #spatial-reasoning
  • #vlm
  • #agent
  • #3d
  • #multi-view
Ropedia
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —