Papers·5일 전
RankE: VQ 디코더까지 함께 학습하는 AR T2I 파인튜닝 — FID 15.21, CLIP 33.76

Westlake University 연구진이 이산 AR T2I 모델에서 정책만 최적화하면 디코더가 학습한 토큰 분포와 달라져 이미지 품질이 떨어지는 Latent Covariate Shift 문제를 발견하고, RankE를 제안했습니다. RankE는 정책과 디코더를 번갈아 학습하며 ranking 기반 정렬 목표를 최적화해 충실도-정렬 트레이드오프를 깼습니다. LlamaGen-XL(775M)에서 CLIP은 높이고 FID는 15.21로 낮췄으며, Janus-Pro(1B)에서도 일관된 개선을 확인했습니다.
- #t2i
- #autoregressive
- #vqgan
- #alignment
- #westlake-university
Westlake University