Papers·1개월 전

Qwen-Image-2.0: 통합 이미지 생성·편집 모델 — 긴 텍스트·다국어·포토리얼리즘 개선

Qwen 팀이 고품질 이미지 생성과 정밀 편집을 하나의 프레임워크로 통합한 Qwen-Image-2.0을 공개했습니다. Qwen3-VL을 조건 인코더로, Multimodal Diffusion Transformer를 결합해 최대 1K 토큰의 복잡한 지시를 처리하며, 슬라이드·포스터·인포그래픽 등 텍스트가 많은 콘텐츠에서 다국어 타이포그래피 충실도가 크게 향상되었습니다. 포토리얼리스틱 생성에서도 디테일·질감·조명이 개선되었고, 사람 평가에서 이전 Qwen-Image 대비 생성과 편집 모두에서 우세를 보였습니다. 다만 학습 데이터 규모와 추론 비용에 대한 세부 정보는 공개되지 않아 재현성은 제한적입니다.

#image-generation
#image-editing
#multimodal
#qwen
#diffusion

Qwen

원문 보기 →

Qwen-Image-2.0: 통합 이미지 생성·편집 모델 — 긴 텍스트·다국어·포토리얼리즘 개선

Comments