Papers·1개월 전

MRT: 20B 파라미터 마스크 영역 확산 모델로 레이어 기반 이미지 생성·편집 통합 — Qwen-Image-Layered 대비 10~100배 빠른 추론

Zhicong Tang 연구팀이 20B 파라미터의 마스크 영역 확산 모델 MRT를 공개했습니다. 텍스트→레이어, 이미지→레이어, 레이어→레이어 세 가지 태스크를 통합한 프레임워크로, 오버플로우 인식 캔버스 레이어를 도입해 가시 캔버스 경계를 넘는 반투명 배경을 지원합니다. 1,000만 개 이상의 다국어 디자인 샘플로 학습했으며, 이미지→레이어 품질에서 Qwen-Image-Layered를 능가하고 추론 속도는 10~100배 빠르며 GPU 메모리 사용량은 50~90% 줄였습니다. 단, 20B 파라미터 규모라 추론에 상당한 리소스가 필요합니다.

레이어 기반 이미지 생성·편집을 통합한 20B 파라미터 마스크 영역 확산 모델 MRT가 공개되었습니다.

핵심 결론

태스크 — 텍스트→레이어, 이미지→레이어, 레이어→레이어 세 가지를 통합, 기존 상용 시스템 포함 SOTA 대비 모든 태스크에서 우위.
성능 — 이미지→레이어 품질 사용자 평가에서 Qwen-Image-Layered를 능가, 추론 속도 10~100배, GPU 메모리 50~90% 절감.

방법

통합 프레임워크 — 선택적 토큰 마스킹으로 세 가지 태스크를 동일한 마스크 영역 확산 프레임워크에서 처리.
오버플로우 처리 — 오버플로우 인식 캔버스 레이어를 도입해 가시 캔버스 밖으로 확장되는 반투명 배경을 생성, 경계 불일치 해결.
효율화 — 확산 증류(diffusion distillation)를 적용해 8스텝 실시간 생성, 품질 저하 최소화.

한계·조건

모델 규모 — 20B 파라미터로 추론에 상당한 GPU 메모리와 연산량 필요.
데이터 — 1,000만 개 이상의 다국어 디자인 샘플로 학습했지만, 특정 도메인(예: 사실적 사진)에서의 일반화는 추가 검증 필요.
코드 — 논문 발표 시점에 코드 및 모델 가중치 공개 여부는 불명.

편집자 한 줄

레이어 기반 생성·편집을 하나의 모델로 통합한 점과 오버플로우 처리 아이디어가 인상적입니다. 다만 20B 규모라 실제 서비스에 올리기에는 최적화가 더 필요해 보입니다.

#image-generation
#layered-editing
#diffusion
#mrt
#qwen

Zhicong Tang

원문 보기 →

MRT: 20B 파라미터 마스크 영역 확산 모델로 레이어 기반 이미지 생성·편집 통합 — Qwen-Image-Layered 대비 10~100배 빠른 추론

핵심 결론

방법

한계·조건

Comments