Papers·1개월 전

Mirage: 3D 일관성 유지하는 비디오 월드 모델 — latent 공간 메모리로 생성 속도 10.6배, 메모리 55배 절감

Microsoft Research 팀이 비디오 월드 모델을 위한 latent spatial memory 프레임워크 Mirage를 제안했습니다. 기존 RGB 공간의 point cloud 메모리 대신 diffusion latent 공간에 직접 3D 캐시를 구축해, pixel-space 재구성 과정에서 발생하는 정보 손실과 연산 비용을 제거했습니다. 그 결과 WorldScore에서 SOTA 성능을 달성했으며, RealEstate10K에서 우수한 재구성 품질을 보였습니다. 단, depth 정보와 카메라 포즈가 필요해 적용 범위가 제한적입니다.

Microsoft Research가 diffusion latent 공간에 직접 3D 메모리를 구축하는 비디오 월드 모델 Mirage를 발표했습니다.

핵심 결론

속도 — 기존 explicit 3D baseline 대비 end-to-end 비디오 생성 속도가 최대 10.57배 빠릅니다.
메모리 — 메모리 사용량은 55배 감소했습니다.
성능 — WorldScore에서 SOTA, RealEstate10K에서 강력한 재구성 품질을 보였습니다.

방법

아이디어 — RGB 공간의 point cloud 대신 diffusion latent 공간에 직접 3D 캐시를 유지합니다.
메모리 구성 — Depth-guided back-projection으로 latent token을 3D로 lifting하여 메모리를 만듭니다.
쿼리 — 직접 latent-space warping을 통해 새로운 뷰를 합성합니다.
Pixel-space 재구성과 VAE encoding이 필요 없어 정보 손실과 연산 부담을 동시에 해결했습니다.

한계·조건

입력 요구 — Depth 정보와 카메라 포즈가 필요해 적용 가능한 데이터가 제한됩니다.
코드 — 코드 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

Latent 공간에서 직접 3D 일관성을 유지하는 접근은 연산 효율성 면에서 실용적인 방향입니다.

#video-generation
#world-model
#3d-consistency
#latent-space
#microsoft

Microsoft Research

원문 보기 →

Mirage: 3D 일관성 유지하는 비디오 월드 모델 — latent 공간 메모리로 생성 속도 10.6배, 메모리 55배 절감

핵심 결론

방법

한계·조건

Comments