Papers·어제
이미지 편집 평가 벤치마크 Edit-Compass — 2,388개 샘플, 6단계 난이도, 다차원 평가
기존 이미지 편집 벤치마크는 난이도가 낮고 평가 방식이 거칠어 최신 모델의 성능을 제대로 반영하지 못합니다. Edit-Compass는 세계 지식 추론, 시각 추론, 다중 이미지 편집 등 6개 난이도 범주에 걸쳐 2,388개의 세심히 주석된 인스턴스를 포함하며, 구조적 추론과 세부 채점 기준에 기반한 다차원 평가 프레임워크를 도입했습니다. 동시에 공개된 EditReward-Compass는 2,251개의 선호도 쌍으로 강화학습 환경에서의 보상 모델 평가를 현실적으로 시뮬레이션합니다.
- #image-editing
- #benchmark
- #reward-model
- #evaluation
Xuehai Bai