Papers·어제
Tsinghua-LeapLab, T2I 정제를 재생성으로 전환 — RvR, Geneval 0.78→0.91 개선

Tsinghua-LeapLab 팀이 통합 멀티모달 모델(UMM)의 텍스트-이미지 생성 정제를 편집(refinement-via-editing)이 아닌 재생성(refinement-via-regeneration, RvR)으로 재정의했습니다. 기존 편집 방식은 프롬프트-이미지 정렬을 대략적으로만 수정하고 픽셀 단위 보존이 수정 공간을 제약했는데, RvR은 초기 이미지의 의미 토큰을 조건으로 이미지를 완전히 재생성해 정렬 정확도를 높입니다. Geneval 0.78→0.91, DPGBench 84.02→87.21, UniGenBench++ 61.53→77.41로 일관된 개선을 보였으나, 재생성 비용이 편집보다 높을 수 있다는 점은 고려할 만합니다.
- #text-to-image
- #unified-multimodal
- #tsinghua
- #refinement
- #regeneration
Tsinghua-LeapLab