Papers·1개월 전

ETH Zurich, 토큰 기반 3D Gaussian Splatting — 픽셀 수 대신 장면 복잡도로 가우시안 배치, 6배 적은 가우시안으로 SOTA

ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다. DL3DV와 RealEstate10K에서 pose-free baseline 대비 각각 2.1dB, 1.2dB PSNR 향상, 가우시안 수는 6배 적습니다. 단, 클러스터링이 inference 시 적용되어 추가 연산이 필요합니다.

ETH Zurich 팀이 픽셀 그리드 대신 토큰 클러스터링으로 가우시안을 배치하는 ZipSplat을 제안했습니다.

핵심 결론

태스크 — Feed-forward 3D Gaussian Splatting, pose-free novel view synthesis.
성능 — DL3DV에서 pose-free baseline 대비 2.1dB PSNR 향상, RealEstate10K에서 1.2dB 향상.
효율 — Pixel-aligned 방법 대비 6배 적은 가우시안으로 동등 이상의 품질.

방법

토큰 압축 — 다중 뷰 backbone으로 추출한 dense visual token을 k-means 클러스터링으로 압축해 scene token 생성.
가우시안 디코딩 — Cross/self-attention으로 정제된 토큰을 MLP가 각각 여러 가우시안으로 디코딩, 위치 제약 없음.
단일 모델 — 클러스터링이 inference 시 적용되므로, 하나의 모델로 quality-efficiency trade-off 조절 가능.

한계·조건

추가 연산 — Inference 시 k-means 클러스터링이 필요해 pixel-aligned 방법보다 추가 연산이 듭니다.
pose-free — Pose나 intrinsics 없이 동작하지만, pose-free 설정에서만 검증되었습니다.
코드 — 프로젝트 페이지는 공개되었으나 코드는 아직 공개되지 않았습니다.

편집자 한 줄

토큰 기반 접근으로 가우시안 수를 장면 복잡도에 맞추는 발상이 깔끔합니다. 단, 클러스터링 오버헤드가 실시간에 얼마나 영향을 줄지 궁금하네요.

#3d-gaussian-splatting
#feed-forward
#token-based
#eth-zurich
#novel-view-synthesis

ETH Zurich

원문 보기 →

ETH Zurich, 토큰 기반 3D Gaussian Splatting — 픽셀 수 대신 장면 복잡도로 가우시안 배치, 6배 적은 가우시안으로 SOTA

핵심 결론

방법

한계·조건

Comments