Papers·어제
MLLM, 성격 예측은 잘하지만 근거는 부실 — 51%가 편향된 추론

도쿄대 연구팀이 MLLM의 성격 인식 능력을 평가하는 Grounded Personality Reasoning (GPR) 태스크와 MM-OCEAN 데이터셋(1,104개 영상, 5,320개 MCQ)을 공개했습니다. 27개 모델을 평가한 결과, 정답을 맞춘 경우 중 51%가 실제 관찰된 단서에 근거하지 않은 편향(Prejudice Rate)이었으며, Holistic-grounding Rate는 최대 33.5%에 그쳐 수치 예측과 추론의 괴리가 드러났습니다. 흥미로운 포인트는 오픈소스 모델 대비 클로즈드 모델이 특별히 우세하지 않았다는 점인데, 다만 이 벤치마크가 영어·서양 데이터에 편중되어 있어 일반화에는 주의가 필요합니다.
- #multimodal
- #personality
- #benchmark
- #university-of-tokyo
The University of Tokyo