Papers·4일 전
Ideal: 깊은 VFM 특징과 얕은 특징을 정렬한 이산 표현 오토인코더 — ImageNet rFID 0.61

Ideal은 사전 학습된 비전 파운데이션 모델(VFM)의 얕은 특징과 깊은 특징을 정렬하여 이산 표현 오토인코더의 재구성 품질을 크게 개선했습니다. ImageNet에서 rFID 0.61로 기존 최고 방법보다 0.28 낮췄고, 자회귀 이미지 생성에서 gFID 1.89로 새로운 SOTA를 달성했습니다. 다만 ImageNet 256×256에 국한된 결과이며, 다른 데이터셋에서의 일반화는 추가 검증이 필요합니다.
Ideal은 VFM의 얕은 특징과 깊은 특징을 정렬해 이산 표현 오토인코더의 재구성 품질을 높인 프레임워크입니다.
핵심 결론
- 재구성 — ImageNet 256×256에서 rFID 0.61로 기존 최고 방법 대비 0.28 개선.
- 생성 — 자회귀 이미지 생성에서 gFID 1.89로 새로운 SOTA 달성.
방법
- 아이디어 — 얕은 VFM 특징이 깊은 특징보다 국소적 외관과 구조 정보를 더 잘 보존한다는 관찰에서 출발.
- 정렬 — 양자화된 토큰을 얕은 특징과 깊은 특징 모두에 정렬하도록 학습하여 시각적 충실도와 의미 정보를 동시에 보존.
한계·조건
- 범위 — ImageNet 256×256에만 검증되었으며, 다른 해상도나 도메인에서의 성능은 추가 실험이 필요.
- 코드 — 코드 공개 여부는 논문에 명시되지 않음.
편집자 한 줄
얕은 특징과 깊은 특징의 상보성을 활용한 점이 직관적이면서도 효과적이네요. 다만 VFM에 의존하는 구조라 backbone이 바뀌면 결과가 달라질 수 있습니다.
- #representation-learning
- #autoencoder
- #image-generation
- #vfm
- #imagenet
Yitong Chen