Papers·2개월 전

MM-CreativityBench: LMM의 창의적 도구 사용 능력 평가 및 선호 학습 기반 정렬

UIUC 연구팀이 LMM의 창의적 문제 해결 능력을 평가하는 MM-CreativityBench를 공개했습니다. 기존 벤치마크가 패턴 인식에 치우친 반면, 이 벤치마크는 시각적 환경에서 물체의 비물리적 속성을 활용한 도구 사용을 요구합니다. 실험 결과, 현재 LMM은 grounded exploration 부족으로 적절한 객체와 부위를 간과하거나 환각을 일으키는 문제를 보였습니다. 연구팀은 Direct Preference Optimization을 활용한 affordance-grounded alignment를 제안하여, 선호 학습을 통해 속성-어포던스 추론을 시각적 증거에 기반하도록 유도하고, 어포던스 지식 베이스로 다중 턴 계획을 안내했습니다. 제안 방법은 올바른 객체/부위 선택에서 일관된 향상을 보이며 환각과 grounding 오류를 크게 줄였습니다.

LMM이 열린 환경에서 시각적 증거에 기반한 창의적 도구 사용을 얼마나 잘 수행하는지 평가하는 벤치마크가 나왔습니다.

핵심 결론

벤치마크 — MM-CreativityBench는 각 인스턴스가 시나리오 이미지와 후보 객체/부위의 구조화된 뷰를 제공하여, 모델의 반복적 탐색과 어포던스 기반 해결 능력을 평가합니다.
현황 — 현재 LMM은 생성 능력 부족보다는 grounded exploration 부족으로 인해 관련 객체를 간과하거나 부위를 제대로 살피지 못하고, 이미지에 근거하지 않은 속성을 환각하는 실패를 보입니다.
제안 — Affordance-grounded alignment: DPO로 시각적 증거에 기반한 속성-어포던스 추론을 선호하도록 학습하고, 어포던스 지식 베이스로 객체 탐색과 다중 턴 계획을 안내합니다.

방법

데이터 — 각 인스턴스는 시나리오 이미지와 함께 후보 객체 및 부위의 구조화된 뷰(예: 분할된 파트 이미지)를 포함하여 fine-grained 평가를 가능하게 합니다.
학습 — DPO를 사용하여 모델이 환각적인 대안보다 시각적 증거에 기반한 추론을 선호하도록 정렬합니다.
지식 베이스 — 어포던스 지식 베이스에서 얻은 감독 신호를 활용하여 더 넓은 객체 탐색과 다중 턴 계획을 유도합니다.

한계·조건

범위 — 벤치마크는 정적인 이미지 기반이며, 실제 물리적 상호작용이나 동적 환경은 포함하지 않습니다.
재현성 — 코드와 데이터는 공개 예정이나 현재는 논문과 부록만 확인 가능합니다.
계산 — DPO 학습에는 추가적인 선호 데이터와 어포던스 지식 베이스 구축 비용이 필요합니다.

편집자 한 줄

LMM의 창의성 평가라는 점에서 흥미롭지만, 벤치마크의 난이도와 실제 응용 간 괴리는 더 논의가 필요해 보입니다.

#multimodal
#creativity
#benchmark
#affordance
#alignment

University of Illinois at Urbana-Champaign

원문 보기 →

MM-CreativityBench: LMM의 창의적 도구 사용 능력 평가 및 선호 학습 기반 정렬

핵심 결론

방법

한계·조건

Comments