Papers·1개월 전

ESI-BENCH: 능동적 탐색이 수동적 관찰보다 공간 지능을 크게 향상 — MLLM 10개 태스크 평가

USC 팀이 제안한 ESI-BENCH는 에이전트가 능동적으로 행동해 관찰을 획득하고, 행동에 따른 관찰 변화를 추론하는 '지각-행동 루프'를 평가하는 벤치마크입니다. OmniGibson 기반 10개 태스크 카테고리·29개 서브태스크에서 최신 MLLM을 실험한 결과, 능동적 탐색이 수동적 관찰보다 월등히 뛰어났으며, 무작위 다중 시점은 오히려 노이즈를 유발했습니다. 주된 실패 원인은 지각이 아닌 '행동 맹목성' — 잘못된 행동 선택이 나쁜 관찰로 이어져 오류가 연쇄되는 현상입니다. 인간과 달리 모델은 반증 시점을 찾거나 신념을 수정하지 못하고, 증거 품질과 무관하게 높은 확신으로 조기 결정을 내리는 초인지적 격차가 드러났습니다.

#spatial-intelligence
#embodied-ai
#mllm
#benchmark
#usc

Yining Hong

원문 보기 →

ESI-BENCH: 능동적 탐색이 수동적 관찰보다 공간 지능을 크게 향상 — MLLM 10개 태스크 평가

Comments