Papers·2주 전
ETH Zurich, 단일 파노라마로 360도 3D 재구성 — PaGeR, 깊이·법선·하늘 마스크 한 번에 추론

ETH Zurich 연구팀이 단일 파노라마 이미지에서 scale-invariant depth, metric depth, surface normals, sky mask 를 한 번에 추정하는 프레임워크 PaGeR 을 공개했습니다. 기존 perspective 용 3D foundation transformer 를 최소한의 변경으로 파노라마에 적용, 실내외 모두에서 SOTA 성능과 우수한 zero-shot 일반화를 보여줍니다. 단, 학습에 perspective 와 파노라마 이미지를 혼합해야 하며, 단일 GPU 환경에서의 추론 속도는 아직 보고되지 않았습니다.
ETH Zurich 팀이 단일 파노라마 이미지로 360도 장면의 깊이·법선·하늘 마스크를 동시에 예측하는 PaGeR 을 내놓았습니다.
핵심 결론
- 태스크 — 단일 파노라마 → scale-invariant depth, metric depth, surface normals, sky mask 동시 추정.
- 성능 — 실내외 벤치마크에서 기존 파노라마 전용 방법 대비 depth RMSE 15~20% 개선, zero-shot 에서도 경쟁력 유지.
- 모델 — 기존 perspective 용 transformer 를 거의 그대로 사용, 파인튜닝만으로 파노라마에 적응.
방법
- 아키텍처 — 사전학습된 perspective 3D reconstruction transformer 의 positional encoding 과 attention mask 만 파노라마에 맞게 조정.
- 학습 — perspective 와 파노라마 이미지를 섞어 학습, 기존 3D prior 를 유지하면서 360도 일관성 학습.
- 단일 forward pass 로 네 가지 출력을 동시에 생성하는 unified head 를 사용합니다.
한계·조건
- 데이터 — 실내 (Matterport3D, Structured3D) 와 실외 (360D, Wild360) 데이터로 학습, 특정 도메인 편향 가능.
- 리소스 — 추론 시 GPU 메모리 요구량이 명시되지 않았으나, transformer 기반이라 고사양 필요.
- 코드 — 현재 Hugging Face 에 abstract 만 공개, 코드 및 모델 가중치는 추후 공개 예정.
편집자 한 줄
파노라마 단일 이미지로 360도 깊이를 뽑아낸다는 점이 인상적이지만, 실제 로봇 내비게이션 같은 실시간 태스크에 쓰이려면 latency 나 메모리 측정이 추가로 필요해 보입니다.
- #3d-reconstruction
- #panorama
- #depth-estimation
- #eth-zurich
Photogrammetry and Remote Sensing Lab of ETH Zurich