Papers·어제
Uni-Edit: 단일 태스크로 이미지 이해·생성·편집 모두 향상 — BAGEL·Janus-Pro 전 영역 개선

Uni-Edit은 지능형 이미지 편집 태스크 하나만으로 통합 멀티모달 모델(UMM)의 이미지 이해·생성·편집 능력을 모두 동시에 향상시키는 방법입니다. 기존의 복잡한 다단계·다태스크 혼합 훈련 대신, 편집이 본질적으로 이해와 생성을 모두 요구하는 일반 태스크임에 착안해 VQA 데이터를 자동으로 복잡한 편집 지시문으로 변환하는 파이프라인을 구축, Uni-Edit-148k 데이터셋을 만들었습니다. BAGEL과 Janus-Pro 실험에서 별도의 보조 기법 없이 세 능력 모두에서 종합적 개선을 달성했습니다.
- #unified-multimodal-model
- #image-editing
- #multi-task-learning
- #data-synthesis
- #janus-pro
Dian Zheng