Papers·어제
CAT — GAN의 coarse-to-fine 생성에서 cross-scale 정렬 문제 해결, ImageNet-256 FID 1.56

기존 GAN이 coarse-to-fine 생성을 위해 중간 해상도 출력에 적대적 감독을 도입하지만, 각 단계가 서로 다른 샘플을 추적하는 cross-scale trajectory misalignment 문제가 있다는 점을 지적합니다. 이를 해결하기 위해 제안된 CAT(Cross-scale Aligned Transformer)는 생성기 측에 간단한 일관성 정규화를 추가해 중간 출력과 최종 출력을 정렬합니다. ImageNet-256 class-conditional 설정에서 60 epoch 학습 후 FID-50K 1.56을 달성하며, 단일 스텝 생성에서 기존 GAN 및 확산/플로우 기반 방법을 능가했습니다.
기존 GAN의 coarse-to-fine 생성이 실제로는 각 단계가 독립적으로 학습되어 샘플 궤적이 어긋나는 문제를 지적하고, 이를 정렬하는 CAT를 제안합니다.
핵심 결론
- 태스크 — class-conditional ImageNet-256 생성, 단일 스텝 추론.
- 성능 — CAT-H/2가 FID-50K 1.56을 기록, 기존 one-step GAN 및 diffusion/flow baseline을 능가.
- 학습 — 60 epoch 만에 수렴, 효율적인 학습이 특징입니다.
방법
- 문제 정의 — 기존 scale-wise adversarial supervision은 각 중간 출력을 독립적으로 real 분포에 가깝게 만들지만, 단계 간 동일 샘플을 추적하지 않아 trajectory misalignment가 발생한다고 주장.
- 제안 — CAT는 discriminator는 scale-wise로 유지하되, 생성기 측에 간단한 consistency regularization을 추가해 중간 출력이 최종 출력과 정렬되도록 강제.
- 구조 — Transformer 기반 생성기로, multi-scale feature를 활용하며 cross-scale alignment loss를 통해 각 단계의 출력이 동일한 샘플을 나타내도록 유도.
한계·조건
- 벤치마크 — ImageNet-256 class-conditional 설정에서만 평가, 다른 데이터셋이나 unconditional 설정에서의 일반화는 추가 검증 필요.
- 코드 — 논문 내 코드 공개 여부는 명시되지 않았으나, Hugging Face papers 링크로 보아 추후 공개 가능성.
- 계산량 — 60 epoch 학습으로 효율적이지만, Transformer 기반으로 인한 추론 비용은 추가 분석 필요.
편집자 한 줄
기존 GAN의 coarse-to-fine 해석에 의문을 제기하고 간단한 정규화로 해결한 점이 흥미롭습니다. 다만 ImageNet-256 외의 환경에서도 효과가 유지될지 지켜볼 필요가 있네요.
- #gan
- #image-generation
- #imagenet
- #transformer
- #adversarial
Sangeek Hyun