Papers·2주 전
JLT: 130M latent diffusion Transformer — clean-latent 예측이 velocity 예측보다 FID 2.50

FLUX.2 VAE latent space 에서 clean-latent 예측이 velocity 예측보다 ImageNet 256×256 에서 FID 2.50 을 기록하며 큰 격차를 보였습니다. 저자들은 velocity 회귀가 등방성 target-covariance floor 를 상속받고 저분산 방향을 증폭하는 반면, clean 예측은 이를 억제한다고 분석합니다. 단, 130M 파라미터 모델 기준이며, guidance scale 등 하이퍼파라미터에 따른 민감도는 추가 검증이 필요해 보입니다.
JLT는 130M latent diffusion Transformer로, FLUX.2 VAE latent space에서 clean-latent 예측이 velocity 예측보다 ImageNet 256×256에서 FID 2.50을 기록하며 큰 격차를 보였습니다.
핵심 결론
- 벤치 — ImageNet 256×256, FID-50K 2.50 (classifier-free guidance).
- 비교 — 동일 백본·학습 조건에서 velocity 예측 DiT 대비 큰 격차 (matched-target gap).
방법
- 모델 — 130M 파라미터 latent diffusion Transformer, FLUX.2 VAE 코드 사용.
- 예측 목표 — clean-latent 예측 (x0 regression) vs velocity 예측 (v regression) 비교.
- 분석 — 국소 Gaussian 분석 결과, velocity 회귀는 등방성 target-covariance floor를 상속받고 저분산 방향을 증폭하는 반면, clean 예측은 이를 억제합니다.
한계·조건
- 규모 — 130M 모델 기준 — 더 큰 모델에서도 동일한 추세가 유지될지는 확인되지 않았습니다.
- 재현성 — 코드와 가중치는 아직 공개되지 않았습니다 (abstract + figure만 공개).
- 범위 — ImageNet 256×256 단일 벤치마크, 다른 데이터셋·해상도에서 일반화 여부는 추가 실험이 필요합니다.
편집자 한 줄
latent diffusion에서 예측 목표의 선택이 representation-dependent한 geometric choice라는 주장은 직관적이면서도 실험적으로 뒷받침된 점이 인상적입니다.
- #latent-diffusion
- #flow-matching
- #imagenet
- #transformer
akatsuki-neo