Papers·2일 전
KAIST, 피드포워드 3D 재구성 모델의 feature 공간에서 확산 기반 복원 — DA3 벤치마크에서 3D 형상과 RGB 동시 개선

KAIST 팀이 피드포워드 3D 재구성 모델의 feature 공간에서 직접 확산 기반 복원을 수행하는 GARD 프레임워크를 제안했습니다. 기존 모델이 이상적 영상 조건에서만 잘 동작하는 문제를 해결하기 위해, 3D 재구성기의 geometry-aware feature를 활용해 열화된 입력에서도 정확한 3D 형상을 복원합니다. 추가 RGB 디코더를 통해 3D 형상과 고품질 영상을 동시에 복구할 수 있다는 점이 특징이며, Depth Anything 3 벤치마크에서 효과를 입증했습니다.
KAIST 팀이 피드포워드 3D 재구성 모델의 feature 공간에서 확산 기반 복원을 수행하는 GARD 프레임워크를 제안했습니다.
핵심 결론
- 태스크 — 열화된 다중 시점 이미지로부터 3D 형상과 RGB 영상을 동시 복원.
- 벤치마크 — Depth Anything 3 (DA3) 벤치마크에서 기존 피드포워드 모델 대비 3D 형상 정확도와 영상 품질 모두 개선.
방법
- 핵심 아이디어 — 피드포워드 3D 재구성 모델의 중간 feature 공간에서 확산 모델로 복원을 수행. 이 feature는 이미 geometry-aware 하므로 별도의 3D prior 없이도 형상 복원에 유리합니다.
- 구조 — 확산 모델이 feature를 정제한 뒤, RGB 디코더를 통해 고품질 영상도 함께 복원. 3D 형상과 2D 영상 복원을 단일 프레임워크로 통합한 점이 특징입니다.
한계·조건
- 환경 — 피드포워드 모델의 feature 공간에 의존하므로, 기반 모델의 표현력이 복원 성능의 상한을 결정합니다.
- 코드 — 현재 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
feature 공간에서 확산을 돌린다는 점이 흥미롭습니다. 다만 DA3 벤치마크 외 다양한 열화 조건에서의 일반화는 추가 검증이 필요해 보입니다.
- #3d-reconstruction
- #diffusion
- #kaist
- #multi-view
- #denoising
KAIST AI