Papers·3개월 전

ReVSI: VLM 공간 지능 평가의 체계적 오류를 교정한 벤치마크 — QA 쌍 재주석으로 정확도 개선

Simon Fraser University 팀이 기존 VLM 공간 지능 평가의 체계적 오류를 지적하고, 이를 교정한 ReVSI 벤치마크를 공개했습니다. 기존 벤치마크는 포인트 클라우드 기반 3D 주석을 비디오 평가에 그대로 사용해 가시적 객체 누락·오표기·기하 오류를 유발했고, 전체 장면 접근을 가정해 실제 모델 입력(16~64 프레임)과 불일치했습니다. ReVSI는 5개 데이터셋의 381개 장면을 재주석하고, QA 쌍을 전문 도구로 검증했으며, 프레임 예산(16/32/64/all)별 변형과 객체 가시성 메타데이터를 제공해 통제된 진단 분석을 가능하게 했습니다. 일반 및 도메인 특화 VLM 평가에서 기존 벤치마크가 가렸던 체계적 실패 모드를 드러냈습니다.

#vlm
#spatial-intelligence
#benchmark
#simon-fraser

Simon Fraser University

원문 보기 →

ReVSI: VLM 공간 지능 평가의 체계적 오류를 교정한 벤치마크 — QA 쌍 재주석으로 정확도 개선

Comments