Papers·1개월 전

추상적 이미지 편집 벤치마크 AbstractEdit — 11개 모델 평가, LLM 텍스트 인코더+반복 추론이 핵심

현대 이미지 편집 벤치마크는 대부분 명시적·직역적 명령에 초점을 맞춰, '분위기' 같은 추상적 지시를 제대로 평가하지 못합니다. Mor Ventura 팀은 추상적 이미지 편집을 정의하고, Entity-Rubrics라는 개체 수준 평가 프레임워크와 함께 첫 전용 벤치마크 AbstractEdit을 공개했습니다. 11개 모델을 평가한 결과, 표준 아키텍처는 의도 보존과 원본 보존 사이에서 균형을 잡지 못해 과소/과잉 편집에 치우치는 경향을 보였고, 고급 LLM 텍스트 인코더와 반복적 사고 과정을 통합해야만 의미 있는 개선이 가능했습니다. Entity-Rubrics는 평가를 넘어 보상 모델이나 오류 분석 루프로도 확장 가능하다는 점이 흥미롭습니다.

#image-editing
#benchmark
#abstract-instructions
#entity-rubrics
#llm

Mor Ventura

원문 보기 →

추상적 이미지 편집 벤치마크 AbstractEdit — 11개 모델 평가, LLM 텍스트 인코더+반복 추론이 핵심

Comments