Papers·1개월 전

DRoRAE: 다중 레이어 특징 융합으로 이미지 재구성 rFID 0.57→0.29 개선

DRoRAE는 사전학습된 비전 인코더의 모든 레이어에서 특징을 융합하는 경량 모듈을 제안합니다. 기존 방법이 마지막 레이어만 사용해 저수준 정보를 손실하는 문제를 해결했으며, ImageNet-256에서 재구성 rFID를 0.57에서 0.29로, 생성 FID를 1.74에서 1.65로 개선했습니다. 흥미로운 점은 융합 용량과 재구성 품질 사이에 로그-선형 스케일링 법칙(R²=0.86)이 존재한다는 발견으로, 이는 NLP의 어휘 크기와 유사한 새로운 확장 차원을 제시합니다. 단, 세 단계 분리 학습 전략이 필요해 학습 파이프라인이 다소 복잡해졌습니다.

#representation-autoencoder
#visual-tokenizer
#multi-layer-fusion
#image-generation
#scaling-law

Xuanyu Zhu

원문 보기 →

DRoRAE: 다중 레이어 특징 융합으로 이미지 재구성 rFID 0.57→0.29 개선

Comments