Papers·1개월 전

CVQ: 채널 단위 양자화로 이미지 생성, DPG 86.7 달성

CVQ(Chennel-wise Vector Quantization)는 기존 패치 단위 토큰화 대신 특징 맵의 채널을 개별 양자화하는 새로운 이미지 토큰화 패러다임입니다. 이를 기반으로 한 Channel-wise Autoregressive (CAR) 모델은 '다음 채널 예측' 방식으로 이미지를 생성하며, 먼저 전역 구조를 스케치한 후 세부 속성을 점진적으로 정제합니다. CVQ는 16K+ 코드북에서 100% 활용률을 보였고, CAR은 DPG 86.7, GenEval 0.79를 기록해 텍스트-이미지 생성에서 강력한 성능을 입증했습니다.

#vector-quantization
#image-generation
#autoregressive
#text-to-image

Wei Song

원문 보기 →

CVQ: 채널 단위 양자화로 이미지 생성, DPG 86.7 달성

Comments