Papers·어제
NanoGen: ImageNet FID 개선이 T2I로 이어지지 않는다 — DiT 평가를 위한 통합 프레임워크

DiT 연구가 ImageNet class-conditional 생성에만 집중되면서 실제 진전을 반영하는지 의문이 제기됩니다. NanoGen은 ImageNet과 text-to-image(T2I)를 통합한 DiT 학습·평가 프레임워크로, 21개 latent diffusion 모델 학습 결과 ImageNet과 T2I 간 메트릭 상관관계가 Pearson -0.377~-0.580으로 매우 낮아 두 태스크 모두 평가가 필요함을 보여줍니다. DiffusionBench라는 통합 벤치마크를 제안하며, ImageNet 단독 평가의 한계를 지적합니다.
DiT 연구가 ImageNet class-conditional 생성에 편향되어 실제 진전을 반영하지 못할 위험을 지적하며, 통합 평가 프레임워크 NanoGen과 벤치마크 DiffusionBench를 제안합니다.
핵심 결론
- 문제 — ImageNet FID 개선이 T2I 성능으로 이어지지 않음 — Pearson 상관계수 -0.377~-0.580.
- 제안 — DiffusionBench: ImageNet과 T2I 결과를 통합한 DiT 평가 벤치마크.
- 프레임워크 — NanoGen은 12줄 설정 변경으로 ImageNet과 T2I 학습을 전환, T2I 학습에 ImageNet과 유사한 compute만 필요.
방법
- 통합 프레임워크 — NanoGen은 RAE, VAE, pixel-space, MeanFlow 등 다양한 diffusion 방법을 ImageNet과 T2I 모두에서 지원.
- 실험 규모 — 21개 latent diffusion 모델 학습, 각각 ImageNet과 T2I에서 평가.
- 상관 분석 — FID, sFID, IS 세 메트릭에서 ImageNet과 T2I 간 순위 상관이 거의 없음을 확인.
한계·조건
- 벤치 범위 — DiffusionBench는 ImageNet과 T2I 결과를 단순 병합한 형태로, 추가 메트릭이나 태스크는 포함되지 않음.
- 재현성 — NanoGen 코드는 공개 예정이며, 실험은 8x A100 기준으로 수행됨.
편집자 한 줄
ImageNet FID만으로 DiT 방법을 평가하는 관행에 경종을 울리는 연구입니다. T2I 평가의 비용 장벽을 낮춘 점도 실용적이네요.
- #diffusion-transformer
- #image-generation
- #evaluation
- #nano-gen
- #diffusion-bench
Xingjian Leng