Papers·1개월 전

RiT: DINOv2 피처에 x-prediction flow matching — ImageNet 256×256 FID 1.14, 파라미터 19%↓

MILA 팀이 frozen DINOv2 표현 공간에서 x-prediction flow matching을 학습하는 RiT(Representation Image Transformer)를 제안했습니다. DINOv2 피처는 pixel 공간과 유사한 내재 차원(~33)을 가지면서도 유효 계수 7.3배, 공분산 조건화 35배, 초과 첨도 11.5배 개선되어 회귀가 잘 conditioning되며, 별도의 예측 헤드나 리만 기하가 필요 없습니다. ImageNet 256×256에서 classifier-free guidance 기준 FID 1.14를 달성, DiT-XL보다 19% 적은 파라미터(676M)로 더 좋은 성능을 냈고, 5 Heun step만으로도 FID 2.0에 도달합니다. 단, DINOv2 인코더가 추가로 필요하며, 학습/추론 파이프라인이 복잡해진 점은 한계입니다.

#flow-matching
#x-prediction
#dinov2
#imagenet
#mil

MILA

원문 보기 →

RiT: DINOv2 피처에 x-prediction flow matching — ImageNet 256×256 FID 1.14, 파라미터 19%↓

Comments