Papers·6일 전
VLM 평가자, 오류 탐지 실패율 50% 이상 — 4000개 변형 벤치마크 결과

AI4Bharat 팀이 VLM 평가자의 신뢰성을 체계적으로 분석한 결과, 객체 환각, 공간 추론 오류 등에서 탐지 실패율이 50%를 넘는 경우가 발견됐습니다. 4000개 이상의 변형 인스턴스와 40가지 변형 차원을 대상으로 4개 VLM을 평가했으며, 쌍별 비교 방식이 상대적으로 나았지만 여전히 한계가 있습니다. 코드와 데이터는 공개되었으나, 현재 VLM 평가자를 벤치마킹에 사용할 때 주의가 필요합니다.
- #vlm
- #evaluation
- #reliability
- #ai4bharat
AI4Bharat