Papers·3일 전
ByteDance Seed, 생성-재구성 공동 학습으로 AR 이미지 생성 FID 1.48 달성

ByteDance Seed 팀이 autoregressive 이미지 생성을 위해 토크나이저와 생성 모델을 end-to-end로 공동 학습하는 파이프라인을 제안했습니다. 기존의 분리된 두 단계 접근과 달리, 생성 결과의 피드백이 토크나이저 학습에 직접 전달되도록 설계했습니다. ImageNet 256x256에서 guidance 없이 FID 1.48을 기록했으며, vision foundation model을 활용한 1D 토크나이저 개선도 함께 탐구했습니다.
- #autoregressive
- #image-generation
- #tokenizer
- #byte-dance
- #imagenet
ByteDance Seed