Papers·1개월 전

WorldBench: 시각 다양성 높인 MLLM 벤치마크 — 최고 모델도 64.0% 정확도

Yida Yin 팀이 다양한 시각 개념을 포괄하는 MLLM 벤치마크 WorldBench를 공개했습니다. 수천 개의 시각 개념을 분류 체계화하고, 검색 엔진과 기존 데이터셋에서 이미지를 수집해 난이도 높은 질문을 수동 설계했습니다. 15개 MLLM 평가 결과, 최고 모델(GPT-4V 등)도 64.0% 정확도에 그쳐 시각 이해의 취약점을 드러냈습니다.

기존 멀티모달 벤치마크가 태스크 다양성에 집중한 반면, WorldBench는 시각적 다양성을 강화해 MLLM의 실제 환경 성능을 더 잘 평가합니다.

핵심 결론

벤치마크 — WorldBench는 15개 MLLM 평가에서 최고 모델도 64.0% 정확도에 그쳐, 시각 이해의 큰 격차를 보여줍니다.
시각 다양성 — 기존 벤치마크 대비 시각 개념의 다양성이 높아, 개방형 시각 입력에 대한 모델의 취약점을 잘 드러냅니다.

방법

분류 체계 — 생물, 사물 등 여러 도메인에 걸친 수천 개의 시각 개념을 포함하는 분류 체계를 구축했습니다.
데이터 수집 — 검색 엔진과 기존 데이터셋에서 이미지를 수집해 분류 체계를 포괄적으로 대표하도록 했습니다.
질문 설계 — 최신 MLLM이 틀리는 도전적인 질문을 수동으로 설계하는 구조적 시행착오 과정을 거쳤습니다.

한계·조건

평가 범위 — 15개 MLLM만 평가했으며, 더 다양한 모델이나 파인튜닝된 모델은 포함되지 않았습니다.
데이터셋 규모 — 구체적인 이미지 수와 질문 수는 논문에 명시되지 않았습니다.
공개 여부 — 벤치마크는 공개 예정이나, 현재는 논문과 함께 일부 샘플만 확인 가능합니다.

편집자 한 줄

시각 다양성에 초점을 맞춘 점은 신선하지만, 벤치마크의 난이도가 실제 응용에서의 성능 저하와 얼마나 상관관계가 있을지는 추가 검증이 필요해 보입니다.

#multimodal
#benchmark
#mllm
#visual-diversity
#worldbench

Yida Yin

원문 보기 →

WorldBench: 시각 다양성 높인 MLLM 벤치마크 — 최고 모델도 64.0% 정확도

핵심 결론

방법

한계·조건

Comments