Papers·어제
MoVerse: 단일 이미지로 360도 파노라마 생성 후 실시간 3D 로밍 — 8 FPS on RTX 4090

Orange Team이 단일 협각 이미지로부터 실시간 탐색 가능한 비디오 월드 모델 MoVerse를 공개했습니다. 입력 이미지의 좁은 시야를 먼저 360도 파노라마로 확장한 뒤, 3D 가우시안 스캐폴드로 변환하고 사용자 카메라 경로에 따라 사실적인 비디오를 렌더링합니다. 양방향 확산 교사 모델을 증류한 자기회귀 학생 모델로 지연 시간을 낮춰 RTX 4090에서 8 FPS를 달성했지만, 단일 이미지 기반이라 폐색 영역의 정확도는 제한적입니다.
Orange Team이 단일 협각 이미지를 360도 파노라마로 확장한 뒤, 3D 가우시안 스캐폴드로 변환해 실시간 비디오 로밍을 가능하게 한 MoVerse를 공개했습니다.
핵심 결론
- 태스크 — 단일 협각 이미지 → 실시간 탐색 가능한 3D 월드 비디오 생성.
- 성능 — RTX 4090에서 8 FPS, 사용자 지정 카메라 경로로 사실적 렌더링.
- 비교 — 기존 단일 이미지 3D 생성 대비 시야각과 일관성에서 개선, 정량적 비교는 부재.
방법
- 파노라마 확장 — 중력 정렬 360도 파노라마를 topology-aware diffusion으로 생성, 3D 추론 전 시야를 먼저 채움.
- 3D 스캐폴드 — 파노라마 기하 예측 잔차(residual)로 3D 가우시안 스캐폴드를 구성, 직접 렌더링 가능한 공간 메모리 확보.
- 렌더러 — 가우시안 조건부 비디오 렌더러가 스캐폴드 렌더링을 사용자 카메라 경로에 따라 사실적 비디오로 변환.
- 증류 — 양방향 확산 교사 모델을 고품질 조건부 렌더링용으로 학습 후, 인과적 자기회귀 학생 모델로 증류해 지연 시간 제한 스트리밍 실현.
한계·조건
- 입력 — 단일 이미지 기반이므로 폐색 영역의 기하 정확도는 보장되지 않음.
- 속도 — 8 FPS는 RTX 4090 기준, 저사양 GPU에서는 프레임률 하락 예상.
- 코드 — Hugging Face 논문 페이지에 abstract와 figure만 공개, 코드 및 모델 가중치 미공개.
편집자 한 줄
단일 이미지에서 실시간 3D 월드를 만든다는 접근은 참신하지만, 정량적 평가와 오픈소스 공개가 후속 관건입니다.
- #world-model
- #video-generation
- #3d-gaussian-splatting
- #diffusion
- #real-time
Orange Team