Papers·1주 전
EAR: 시각적 추론을 단일 이미지 편집으로 재구성한 접근법 — AMAZE 데이터셋과 Maze·Queen 문제

Zhimu Zhou 팀이 시각적 계획(visual planning) 문제를 단일 단계 이미지 변환으로 해결하는 editing-as-reasoning 패러다임 EAR을 제안했습니다. 기존의 단계별 생성 방식 대신 이미지 편집 모델을 활용해 추론을 한 번에 수행하며, 추상 퍼즐(미로·여왕 문제)로 구성된 AMAZE 데이터셋을 공개했습니다. 주요 편집 모델들은 제로샷에서 난항을 겪었지만, 기본 스케일에서 미세조정하면 더 큰 스케일과 새로운 형태로 일반화됩니다. 다만 최고 성능 모델도 인간의 제로샷 효율에는 미치지 못해 신경망 시각 추론의 한계를 드러냅니다.
- #visual-planning
- #image-editing
- #reasoning
- #amaze
- #zhimu-zhou
Zhimu Zhou