Papers·어제

NanoGen: ImageNet FID 개선이 T2I로 이어지지 않는다 — DiT 평가를 위한 통합 프레임워크

DiT 연구가 ImageNet class-conditional 생성에만 집중되면서 실제 진전을 반영하는지 의문이 제기됩니다. NanoGen은 ImageNet과 text-to-image(T2I)를 통합한 DiT 학습·평가 프레임워크로, 21개 latent diffusion 모델 학습 결과 ImageNet과 T2I 간 메트릭 상관관계가 Pearson -0.377~-0.580으로 매우 낮아 두 태스크 모두 평가가 필요함을 보여줍니다. DiffusionBench라는 통합 벤치마크를 제안하며, ImageNet 단독 평가의 한계를 지적합니다.

DiT 연구가 ImageNet class-conditional 생성에 편향되어 실제 진전을 반영하지 못할 위험을 지적하며, 통합 평가 프레임워크 NanoGen과 벤치마크 DiffusionBench를 제안합니다.

핵심 결론

문제 — ImageNet FID 개선이 T2I 성능으로 이어지지 않음 — Pearson 상관계수 -0.377~-0.580.
제안 — DiffusionBench: ImageNet과 T2I 결과를 통합한 DiT 평가 벤치마크.
프레임워크 — NanoGen은 12줄 설정 변경으로 ImageNet과 T2I 학습을 전환, T2I 학습에 ImageNet과 유사한 compute만 필요.

방법

통합 프레임워크 — NanoGen은 RAE, VAE, pixel-space, MeanFlow 등 다양한 diffusion 방법을 ImageNet과 T2I 모두에서 지원.
실험 규모 — 21개 latent diffusion 모델 학습, 각각 ImageNet과 T2I에서 평가.
상관 분석 — FID, sFID, IS 세 메트릭에서 ImageNet과 T2I 간 순위 상관이 거의 없음을 확인.

한계·조건

벤치 범위 — DiffusionBench는 ImageNet과 T2I 결과를 단순 병합한 형태로, 추가 메트릭이나 태스크는 포함되지 않음.
재현성 — NanoGen 코드는 공개 예정이며, 실험은 8x A100 기준으로 수행됨.

편집자 한 줄

ImageNet FID만으로 DiT 방법을 평가하는 관행에 경종을 울리는 연구입니다. T2I 평가의 비용 장벽을 낮춘 점도 실용적이네요.

#diffusion-transformer
#image-generation
#evaluation
#nano-gen
#diffusion-bench

Xingjian Leng

원문 보기 →

NanoGen: ImageNet FID 개선이 T2I로 이어지지 않는다 — DiT 평가를 위한 통합 프레임워크

핵심 결론

방법

한계·조건

Comments