Papers·1개월 전

Tsinghua SpatialWorld — 15개 MLLM 중 GPT-5 TSR 17.4%, 능동적 공간 추론 한계

Tsinghua 팀이 멀티모달 에이전트의 능동적 공간 추론을 평가하는 벤치마크 SpatialWorld를 공개했습니다. 8개 시뮬레이터를 통합한 760개 태스크에서 최고 모델 GPT-5의 TSR이 17.4%에 그쳐, 능동적 탐색과 장기 계획이 주요 병목임을 드러냈습니다. 태스크 성공과 실행 효율 간 괴리, 도메인별 성능 편차도 두드러집니다.

Tsinghua 팀이 멀티모달 에이전트의 능동적 공간 추론을 평가하는 벤치마크 SpatialWorld를 공개했습니다.

핵심 결론

최고 성능 — GPT-5 TSR 17.4%, 오픈소스 최고 Qwen-3.5 14.1% — 능동적 공간 추론이 여전히 큰 도전 과제임을 보여줍니다.
태스크 규모 — 8개 이종 시뮬레이터를 통합한 760개 사람 주석 태스크, 가사·여행·사회 협력 등 다양한 도메인 포함.

방법

통합 프로토콜 — 시뮬레이터에 무관한 공유 프로토콜로 8개 백엔드를 통합, 에이전트는 텍스트 기반 통합 액션 인터페이스로 제어합니다.
부분 관측 — 에이전트는 시각 정보만으로 능동적으로 증거를 수집해야 하며, 각 태스크는 사람 검증된 초기 상태·참조 궤적·종료 검증기를 갖춥니다.

한계·조건

성능 격차 — 태스크 성공과 실행 효율 사이에 명확한 불일치가 있으며, 도메인별 성능 편차가 큽니다.
공개 — 벤치마크와 평가 코드는 공개 예정 — 현재는 논문과 데이터셋 설명만 열람 가능.

편집자 한 줄

15개 모델 중 최고가 17.4%라는 점에서, 능동적 공간 추론은 아직 초기 단계임을 실감하게 합니다.

#spatial-reasoning
#benchmark
#multimodal
#tsinghua
#mllm

Tsinghua University

원문 보기 →

Tsinghua SpatialWorld — 15개 MLLM 중 GPT-5 TSR 17.4%, 능동적 공간 추론 한계

핵심 결론

방법

한계·조건

Comments