← Back to feed
Papers·어제

CVQ: 채널 단위 양자화로 이미지 생성, DPG 86.7 달성

CVQ: 채널 단위 양자화로 이미지 생성, DPG 86.7 달성

CVQ(Chennel-wise Vector Quantization)는 기존 패치 단위 토큰화 대신 특징 맵의 채널을 개별 양자화하는 새로운 이미지 토큰화 패러다임입니다. 이를 기반으로 한 Channel-wise Autoregressive (CAR) 모델은 '다음 채널 예측' 방식으로 이미지를 생성하며, 먼저 전역 구조를 스케치한 후 세부 속성을 점진적으로 정제합니다. CVQ는 16K+ 코드북에서 100% 활용률을 보였고, CAR은 DPG 86.7, GenEval 0.79를 기록해 텍스트-이미지 생성에서 강력한 성능을 입증했습니다.

  • #vector-quantization
  • #image-generation
  • #autoregressive
  • #text-to-image
Wei Song

Comments

— 첫 댓글을 남겨보세요 —