Papers·2일 전
ETH Zurich, 토큰 기반 3D Gaussian Splatting — 픽셀 수 대신 장면 복잡도로 가우시안 배치, 6배 적은 가우시안으로 SOTA

ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다. DL3DV와 RealEstate10K에서 pose-free baseline 대비 각각 2.1dB, 1.2dB PSNR 향상, 가우시안 수는 6배 적습니다. 단, 클러스터링이 inference 시 적용되어 추가 연산이 필요합니다.
ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다.
핵심 결론
- 태스크 — Feed-forward 3D Gaussian Splatting, pose-free novel view synthesis.
- 성능 — DL3DV에서 pose-free baseline 대비 2.1dB PSNR 향상, RealEstate10K에서 1.2dB 향상.
- 효율 — Pixel-aligned 방법 대비 6배 적은 가우시안으로 동등 이상의 품질.
방법
- 토큰 압축 — 다중 뷰 backbone으로 추출한 dense visual token을 k-means 클러스터링으로 압축해 scene token 생성.
- 가우시안 디코딩 — Cross/self-attention으로 정제된 토큰을 MLP가 각각 여러 가우시안으로 디코딩, 위치 제약 없음.
- 단일 모델 — 클러스터링이 inference 시 적용되므로, 하나의 모델로 quality-efficiency trade-off 조절 가능.
한계·조건
- 추가 연산 — Inference 시 k-means 클러스터링이 필요해 pixel-aligned 방법보다 추가 연산이 듭니다.
- pose-free — Pose나 intrinsics 없이 동작하지만, pose-free 설정에서만 검증되었습니다.
- 코드 — 프로젝트 페이지는 공개되었으나 코드는 아직 공개되지 않았습니다.
편집자 한 줄
토큰 기반 접근으로 가우시안 수를 장면 복잡도에 맞추는 발상이 깔끔합니다. 단, 클러스터링 오버헤드가 실시간에 얼마나 영향을 줄지 궁금하네요.
- #3d-gaussian-splatting
- #feed-forward
- #token-based
- #eth-zurich
- #novel-view-synthesis
ETH Zurich