← Back to feed
Papers·2일 전

ETH Zurich, 토큰 기반 3D Gaussian Splatting — 픽셀 수 대신 장면 복잡도로 가우시안 배치, 6배 적은 가우시안으로 SOTA

ETH Zurich, 토큰 기반 3D Gaussian Splatting — 픽셀 수 대신 장면 복잡도로 가우시안 배치, 6배 적은 가우시안으로 SOTA

ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다. DL3DV와 RealEstate10K에서 pose-free baseline 대비 각각 2.1dB, 1.2dB PSNR 향상, 가우시안 수는 6배 적습니다. 단, 클러스터링이 inference 시 적용되어 추가 연산이 필요합니다.

ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다.

핵심 결론

  • 태스크Feed-forward 3D Gaussian Splatting, pose-free novel view synthesis.
  • 성능DL3DV에서 pose-free baseline 대비 2.1dB PSNR 향상, RealEstate10K에서 1.2dB 향상.
  • 효율Pixel-aligned 방법 대비 6배 적은 가우시안으로 동등 이상의 품질.

방법

  • 토큰 압축다중 뷰 backbone으로 추출한 dense visual token을 k-means 클러스터링으로 압축해 scene token 생성.
  • 가우시안 디코딩Cross/self-attention으로 정제된 토큰을 MLP가 각각 여러 가우시안으로 디코딩, 위치 제약 없음.
  • 단일 모델클러스터링이 inference 시 적용되므로, 하나의 모델로 quality-efficiency trade-off 조절 가능.

한계·조건

  • 추가 연산Inference 시 k-means 클러스터링이 필요해 pixel-aligned 방법보다 추가 연산이 듭니다.
  • pose-freePose나 intrinsics 없이 동작하지만, pose-free 설정에서만 검증되었습니다.
  • 코드프로젝트 페이지는 공개되었으나 코드는 아직 공개되지 않았습니다.

편집자 한 줄

토큰 기반 접근으로 가우시안 수를 장면 복잡도에 맞추는 발상이 깔끔합니다. 단, 클러스터링 오버헤드가 실시간에 얼마나 영향을 줄지 궁금하네요.

  • #3d-gaussian-splatting
  • #feed-forward
  • #token-based
  • #eth-zurich
  • #novel-view-synthesis
ETH Zurich
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —