← Back to feed
Papers·어제

이미지 편집 평가 벤치마크 Edit-Compass — 2,388개 샘플, 6단계 난이도, 다차원 평가

이미지 편집 평가 벤치마크 Edit-Compass — 2,388개 샘플, 6단계 난이도, 다차원 평가

기존 이미지 편집 벤치마크는 난이도가 낮고 평가 방식이 거칠어 최신 모델의 성능을 제대로 반영하지 못합니다. Edit-Compass는 세계 지식 추론, 시각 추론, 다중 이미지 편집 등 6개 난이도 범주에 걸쳐 2,388개의 세심히 주석된 인스턴스를 포함하며, 구조적 추론과 세부 채점 기준에 기반한 다차원 평가 프레임워크를 도입했습니다. 동시에 공개된 EditReward-Compass는 2,251개의 선호도 쌍으로 강화학습 환경에서의 보상 모델 평가를 현실적으로 시뮬레이션합니다.

  • #image-editing
  • #benchmark
  • #reward-model
  • #evaluation
Xuehai Bai

Comments

— 첫 댓글을 남겨보세요 —