← Back to feed
Papers·1주 전

SpatialAvatar-0: FLAME-기반 3DGS로 4D 헤드 아바타 생성, feed-forward와 per-subject refinement 통합

SpatialAvatar-0: FLAME-기반 3DGS로 4D 헤드 아바타 생성, feed-forward와 per-subject refinement 통합

SpatialAvatar-0는 FLAME 메시에 바운딩된 3D Gaussian 표현을 공유하는 feed-forward 생성기와 per-subject 정제기를 통합한 프레임워크입니다. Feed-forward 단계는 K-소스 평균 풀링과 단안-시점-다시점-공간 2단계 스케줄로 도메인 편향을 줄였고, per-subject 정제는 10K 반복만으로 기존 300K~600K 반복 대비 60배 빠르게 동작하며 GeoAvatar 대비 PSNR +1.3dB를 달성했습니다. VFHQ/HDTF 제로샷 평가에서는 GAGAvatar를 PSNR +1.5dB로 앞섰습니다.

SpatialAvatar-0는 FLAME 메시 기반 3D Gaussian 표현을 통해 feed-forward 예측과 per-subject 정제를 하나의 파이프라인으로 연결한 4D 헤드 아바타 생성 모델입니다.

핵심 결론

  • 제로샷 성능VFHQ/HDTF 교차 도메인 제로샷 평가에서 in-domain 리더 GAGAvatar를 PSNR +1.5dB로 능가.
  • 단안 벤치마크SplattingAvatar 단안 벤치마크에서 모든 지표 최고 기록, 300K 반복 GeoAvatar 대비 PSNR +1.3dB, 60배 빠른 수렴.

방법

  • 표현FLAME 메시에 바운딩된 3D Gaussian 표현을 사용, feed-forward와 per-subject 정제가 동일한 표현 공유.
  • Feed-forwardK-소스 평균 풀링(파라미터 프리)과 단안-시점→다중-시점 2단계 학습 스케줄로 identity prior 붕괴 방지.
  • 정제10K 반복, FLAME 바인딩과 Gaussian 수 고정, anti-spike 정규화로 densification 대체, 레이아웃 보존.

한계·조건

  • 데이터Feed-forward 학습은 VFHQ/HDTF를 포함하지 않은 다른 데이터셋으로 진행, 제로샷 평가의 신뢰도 높음.
  • 계산량Per-subject 정제는 10K 반복으로 기존 대비 현저히 적지만, 여전히 GPU 자원 필요.
  • 코드웹사이트와 논문 공개, 코드 공개 여부는 미확인.

편집자 한 줄

두 레짐을 하나의 표현으로 통합한 점이 실용적이며, 60배 속도 향상은 실제 워크플로에 큰 차이를 만들 만합니다.

  • #3d-gaussian-splatting
  • #head-avatar
  • #flame
  • #feed-forward
  • #per-subject-refinement
Yiran Wang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —