Papers·2주 전
CMU, 2D 단일 이미지만으로 3D Gaussian 헤드 아바타 생성 — MVCHead, HiSS 블록으로 일관성 확보

CMU 팀이 단일 2D 이미지로부터 3D Gaussian 헤드 아바타를 생성하는 MVCHead를 제안했습니다. 핵심은 계층적 상태 공간(HiSS) 블록으로 3D Gaussian을 coarse-to-fine으로 정제하고, SE(3) 멀티뷰 비평자가 렌더링 간의 일관성을 평가하며 다중 뷰 일관성을 직접 3D 표현에 부과하는 점입니다. 텍스처와 기하 일관성 모두에서 기존 방법을 능가했으며, 학습 및 평가용 대규모 데이터셋 FaceGS-10K도 공개했습니다.
CMU 연구진이 단일 2D 이미지만으로 3D Gaussian 헤드 아바타를 생성하는 MVCHead를 발표했습니다.
핵심 결론
- 태스크 — 단일 2D 이미지에서 3D Gaussian 헤드 아바타 생성 — 다중 뷰 데이터나 3D 감독 없이.
- 성능 — 기존 방법 대비 텍스처 및 기하 일관성에서 SOTA, 지각 품질 또한 최고 수준.
- 데이터셋 — FaceGS-10K, 10,000개의 3D Gaussian 헤드 에셋을 포함한 대규모 데이터셋 공개.
방법
- MVCHead — 단일 샷 상태 공간 모델로, 3D 표현 내에서 직접 다중 뷰 일관성을 강제하며 3D Gaussian을 회귀.
- HiSS 블록 — 계층적 상태 공간 블록으로 Gaussian을 coarse-to-fine으로 정제, 장거리 의존성 포착.
- HiBiSS — Mamba의 단방향 스캔을 양방향으로 확장, 다중 뷰 불일치가 가장 큰 축을 따라 정렬.
- SE(3) Critic — 다중 뷰 비평자가 자체 렌더링 세트가 단일 3D 설정에서 비롯되었는지 판단, 교차 뷰 정렬 보상.
한계·조건
- 범위 — 헤드 아바타에 특화 — 전신이나 일반 객체로의 확장은 검증되지 않음.
- 데이터 — FaceGS-10K는 합성 데이터 기반으로, 실제 이미지에서의 성능은 추가 검증 필요.
- 코드 — 프로젝트 페이지와 코드 공개 예정 (현재 abstract 및 figure 공개).
편집자 한 줄
단일 이미지에서 3D Gaussian을 직접 학습하는 접근은 파이프라인을 단순화한다는 점에서 흥미롭습니다. 다만 SE(3) Critic의 학습 안정성과 실제 환경에서의 일반화는 후속 연구를 지켜봐야 할 부분입니다.
- #3d-gaussian
- #head-avatar
- #state-space-model
- #cmu
- #single-view
Carnegie Mellon University