Papers·2개월 전

ETH Zurich, 단일 파노라마로 360도 3D 재구성 — PaGeR, 깊이·법선·하늘 마스크 한 번에 추론

ETH Zurich 연구팀이 단일 파노라마 이미지에서 scale-invariant depth, metric depth, surface normals, sky mask 를 한 번에 추정하는 프레임워크 PaGeR 을 공개했습니다. 기존 perspective 용 3D foundation transformer 를 최소한의 변경으로 파노라마에 적용, 실내외 모두에서 SOTA 성능과 우수한 zero-shot 일반화를 보여줍니다. 단, 학습에 perspective 와 파노라마 이미지를 혼합해야 하며, 단일 GPU 환경에서의 추론 속도는 아직 보고되지 않았습니다.

ETH Zurich 팀이 단일 파노라마 이미지로 360도 장면의 깊이·법선·하늘 마스크를 동시에 예측하는 PaGeR 을 내놓았습니다.

핵심 결론

태스크 — 단일 파노라마 → scale-invariant depth, metric depth, surface normals, sky mask 동시 추정.
성능 — 실내외 벤치마크에서 기존 파노라마 전용 방법 대비 depth RMSE 15~20% 개선, zero-shot 에서도 경쟁력 유지.
모델 — 기존 perspective 용 transformer 를 거의 그대로 사용, 파인튜닝만으로 파노라마에 적응.

방법

아키텍처 — 사전학습된 perspective 3D reconstruction transformer 의 positional encoding 과 attention mask 만 파노라마에 맞게 조정.
학습 — perspective 와 파노라마 이미지를 섞어 학습, 기존 3D prior 를 유지하면서 360도 일관성 학습.
단일 forward pass 로 네 가지 출력을 동시에 생성하는 unified head 를 사용합니다.

한계·조건

데이터 — 실내 (Matterport3D, Structured3D) 와 실외 (360D, Wild360) 데이터로 학습, 특정 도메인 편향 가능.
리소스 — 추론 시 GPU 메모리 요구량이 명시되지 않았으나, transformer 기반이라 고사양 필요.
코드 — 현재 Hugging Face 에 abstract 만 공개, 코드 및 모델 가중치는 추후 공개 예정.

편집자 한 줄

파노라마 단일 이미지로 360도 깊이를 뽑아낸다는 점이 인상적이지만, 실제 로봇 내비게이션 같은 실시간 태스크에 쓰이려면 latency 나 메모리 측정이 추가로 필요해 보입니다.

#3d-reconstruction
#panorama
#depth-estimation
#eth-zurich

Photogrammetry and Remote Sensing Lab of ETH Zurich

원문 보기 →

ETH Zurich, 단일 파노라마로 360도 3D 재구성 — PaGeR, 깊이·법선·하늘 마스크 한 번에 추론

핵심 결론

방법

한계·조건

Comments