Papers·2일 전
VAB 벤치마크 — MLLM 미적 판단력, 인간 전문가 68.9% vs 최고 모델 26.5%
멀티모달 모델(MLLM)의 미적 판단 능력을 평가하는 Visual Aesthetic Benchmark(VAB)가 공개됐습니다. 기존 점수 기반 평가는 비교 선호도와 일치하지 않는다는 점을 8명의 전문가 실험으로 확인하고, 주제가 매칭된 후보군 중 최고·최악 이미지를 고르는 비교 선택 과제 400개를 설계했습니다. 20개 MLLM과 6개 보상 모델 중 최고 성능은 3회 무작위 순서에서 정답률 26.5%로, 인간 전문가(68.9%)와 큰 차이를 보였습니다. 35B 파라미터 모델을 2,000개 전문가 예시로 파인튜닝하면 397B 모델에 근접해, VAB의 비교 신호가 전이 가능함을 시사합니다.
- #multimodal
- #aesthetic-judgment
- #benchmark
- #mllm
- #huggingface
Yichen Feng