Papers·1개월 전

위스콘신 대학, 장기 이미지 편집을 위한 경험 기반 프레임워크 — 다단계 추상 명령 처리에서 기존 대비 12% 향상

위스콘신-매디슨 팀이 추상적이고 다단계 이미지 편집 명령을 처리하는 경험 기반 프레임워크를 제안했습니다. Planner가 명령을 원자적 단계로 분해하고, Orchestrator가 각 단계에 적합한 도구와 영역을 선택하며, VLM 기반 judge가 보상을 제공해 Orchestrator를 학습시킵니다. 성공한 궤적으로 Planner를 개선하는 방식으로, 단일 단계나 규칙 기반 다단계 방법보다 일관된 편집 결과를 보여줍니다. 단, 실험은 특정 편집 도구 세트와 VLM에 의존해 일반화 가능성은 추가 검증이 필요합니다.

#image-editing
#multi-step
#reinforcement-learning
#university-of-wisconsin

University of Wisconsin - Madison

원문 보기 →

위스콘신 대학, 장기 이미지 편집을 위한 경험 기반 프레임워크 — 다단계 추상 명령 처리에서 기존 대비 12% 향상

Comments