Papers·1주 전
NYU PaintBench: 정밀 단일-답변 이미지 편집 20종 벤치마크 — 최고 성능 17.1% mIoU

NYU 팀이 정밀 단일-답변 이미지 편집 능력을 평가하는 동적 벤치마크 PaintBench를 공개했습니다. 20가지 기본 편집 연산(기하 변환, 구조 조작, 색상 변경, 기호 추론)을 절차적 생성으로 무한 확장 가능하며, 픽셀 단위 평가로 편향을 배제했습니다. 11개 모델 평가 결과 최고 성능이 17.1% mIoU에 그쳐, 특히 기하 변환과 구조 조작에서 낮은 점수를 보였습니다. 데이터 시각화 편집 벤치마크 TinyGrafixBench와의 상관계수 R²=0.91로 실제 작업 성능 예측에도 유효함을 입증했습니다.
NYU 연구팀이 정밀 단일-답변 이미지 편집 능력을 측정하는 동적 벤치마크 PaintBench를 발표했습니다.
핵심 결론
- 성능 — 11개 이미지 편집 모델 중 최고 성능은 17.1% mIoU로, 전반적으로 낮은 정밀도를 보였습니다.
- 취약 영역 — 기하 변환, 구조 조작, 수식 기반 색상 변경이 특히 어려운 연산으로 드러났습니다.
- 일반화 — 데이터 시각화 편집 태스크(TinyGrafixBench)와 PaintBench 점수 간 강한 선형 상관(R²=0.91)을 확인했습니다.
방법
- 절차적 생성 — 20가지 기본 편집 연산을 절차적으로 생성하여 무한히 많은 평가 샘플을 만들 수 있어 데이터 오염에 강합니다.
- 픽셀 단위 평가 — 편집 결과를 원본과의 픽셀 차이로 측정하는 결정론적 평가 방식을 채택해 판단 모델 편향을 배제했습니다.
- 세부 진단 — 객체 수, 배경 복잡도, 색상 구성, 편집 영역 크기 등 장면 변수가 성능에 미치는 영향을 분석합니다.
한계·조건
- 벤치 범위 — 단일-답변 정밀 편집에 초점을 맞춰 자유 형식 편집 능력은 평가하지 않습니다.
- 재현성 — 절차적 생성으로 인해 동일한 샘플이 재현되지 않을 수 있어, 엄격한 비교를 위해 시드 고정이 필요합니다.
- 코드 — GitHub에 공개 예정이며, 현재는 논문과 데모 페이지에서 세부 정보를 확인할 수 있습니다.
편집자 한 줄
정밀 편집에서 현 모델들의 한계를 명확히 보여주는 벤치마크네요. 특히 17.1%라는 수치는 아직 갈 길이 멀다는 걸 시사합니다.
- #multimodal
- #benchmark
- #image-editing
- #nyu
VISIONx @ NYU