Papers·2개월 전

CMU, 2D 단일 이미지만으로 3D Gaussian 헤드 아바타 생성 — MVCHead, HiSS 블록으로 일관성 확보

CMU 팀이 단일 2D 이미지로부터 3D Gaussian 헤드 아바타를 생성하는 MVCHead를 제안했습니다. 핵심은 계층적 상태 공간(HiSS) 블록으로 3D Gaussian을 coarse-to-fine으로 정제하고, SE(3) 멀티뷰 비평자가 렌더링 간의 일관성을 평가하며 다중 뷰 일관성을 직접 3D 표현에 부과하는 점입니다. 텍스처와 기하 일관성 모두에서 기존 방법을 능가했으며, 학습 및 평가용 대규모 데이터셋 FaceGS-10K도 공개했습니다.

CMU 연구진이 단일 2D 이미지만으로 3D Gaussian 헤드 아바타를 생성하는 MVCHead를 발표했습니다.

핵심 결론

태스크 — 단일 2D 이미지에서 3D Gaussian 헤드 아바타 생성 — 다중 뷰 데이터나 3D 감독 없이.
성능 — 기존 방법 대비 텍스처 및 기하 일관성에서 SOTA, 지각 품질 또한 최고 수준.
데이터셋 — FaceGS-10K, 10,000개의 3D Gaussian 헤드 에셋을 포함한 대규모 데이터셋 공개.

방법

MVCHead — 단일 샷 상태 공간 모델로, 3D 표현 내에서 직접 다중 뷰 일관성을 강제하며 3D Gaussian을 회귀.
HiSS 블록 — 계층적 상태 공간 블록으로 Gaussian을 coarse-to-fine으로 정제, 장거리 의존성 포착.
HiBiSS — Mamba의 단방향 스캔을 양방향으로 확장, 다중 뷰 불일치가 가장 큰 축을 따라 정렬.
SE(3) Critic — 다중 뷰 비평자가 자체 렌더링 세트가 단일 3D 설정에서 비롯되었는지 판단, 교차 뷰 정렬 보상.

한계·조건

범위 — 헤드 아바타에 특화 — 전신이나 일반 객체로의 확장은 검증되지 않음.
데이터 — FaceGS-10K는 합성 데이터 기반으로, 실제 이미지에서의 성능은 추가 검증 필요.
코드 — 프로젝트 페이지와 코드 공개 예정 (현재 abstract 및 figure 공개).

편집자 한 줄

단일 이미지에서 3D Gaussian을 직접 학습하는 접근은 파이프라인을 단순화한다는 점에서 흥미롭습니다. 다만 SE(3) Critic의 학습 안정성과 실제 환경에서의 일반화는 후속 연구를 지켜봐야 할 부분입니다.

#3d-gaussian
#head-avatar
#state-space-model
#cmu
#single-view

Carnegie Mellon University

원문 보기 →

CMU, 2D 단일 이미지만으로 3D Gaussian 헤드 아바타 생성 — MVCHead, HiSS 블록으로 일관성 확보

핵심 결론

방법

한계·조건

Comments