Papers·1주 전
SpatialAvatar-0: FLAME-기반 3DGS로 4D 헤드 아바타 생성, feed-forward와 per-subject refinement 통합

SpatialAvatar-0는 FLAME 메시에 바운딩된 3D Gaussian 표현을 공유하는 feed-forward 생성기와 per-subject 정제기를 통합한 프레임워크입니다. Feed-forward 단계는 K-소스 평균 풀링과 단안-시점-다시점-공간 2단계 스케줄로 도메인 편향을 줄였고, per-subject 정제는 10K 반복만으로 기존 300K~600K 반복 대비 60배 빠르게 동작하며 GeoAvatar 대비 PSNR +1.3dB를 달성했습니다. VFHQ/HDTF 제로샷 평가에서는 GAGAvatar를 PSNR +1.5dB로 앞섰습니다.
SpatialAvatar-0는 FLAME 메시 기반 3D Gaussian 표현을 통해 feed-forward 예측과 per-subject 정제를 하나의 파이프라인으로 연결한 4D 헤드 아바타 생성 모델입니다.
핵심 결론
- 제로샷 성능 — VFHQ/HDTF 교차 도메인 제로샷 평가에서 in-domain 리더 GAGAvatar를 PSNR +1.5dB로 능가.
- 단안 벤치마크 — SplattingAvatar 단안 벤치마크에서 모든 지표 최고 기록, 300K 반복 GeoAvatar 대비 PSNR +1.3dB, 60배 빠른 수렴.
방법
- 표현 — FLAME 메시에 바운딩된 3D Gaussian 표현을 사용, feed-forward와 per-subject 정제가 동일한 표현 공유.
- Feed-forward — K-소스 평균 풀링(파라미터 프리)과 단안-시점→다중-시점 2단계 학습 스케줄로 identity prior 붕괴 방지.
- 정제 — 10K 반복, FLAME 바인딩과 Gaussian 수 고정, anti-spike 정규화로 densification 대체, 레이아웃 보존.
한계·조건
- 데이터 — Feed-forward 학습은 VFHQ/HDTF를 포함하지 않은 다른 데이터셋으로 진행, 제로샷 평가의 신뢰도 높음.
- 계산량 — Per-subject 정제는 10K 반복으로 기존 대비 현저히 적지만, 여전히 GPU 자원 필요.
- 코드 — 웹사이트와 논문 공개, 코드 공개 여부는 미확인.
편집자 한 줄
두 레짐을 하나의 표현으로 통합한 점이 실용적이며, 60배 속도 향상은 실제 워크플로에 큰 차이를 만들 만합니다.
- #3d-gaussian-splatting
- #head-avatar
- #flame
- #feed-forward
- #per-subject-refinement
Yiran Wang