Papers·2일 전
Lift4D — 단안 비디오로 동적 비강체 물체 4D 재구성, occlusion 에 강한 테스트타임 최적화

Lift4D는 단안 비디오에서 동적 비강체 물체의 4D 재구성을 위한 테스트타임 최적화 프레임워크입니다. 기존 방법은 4D 학습 데이터 부족이나 초기 재구성 후 비디오 감독만으로 한계가 있었는데, Lift4D는 단일뷰 3D 재구성 모델을 인과적 잠재 조건으로 시간적으로 일관된 프레임별 예측을 생성하고, 변형 가능한 3D Gaussian Splatting 표현을 occlusion-aware 최적화와 확산 사전으로 조각하여 가려진 영역까지 완성합니다. 복잡한 야외 시퀀스에서 큰 변형과 심한 폐색이 있는 경우 기존 4D 재구성 방법보다 명확히 개선되었습니다.
Lift4D는 단안 비디오에서 동적 비강체 물체의 4D 재구성을 위한 테스트타임 최적화 프레임워크로, 심한 폐색과 큰 변형이 있는 야외 시퀀스에서 기존 방법보다 명확히 개선되었습니다.
핵심 결론
- 태스크 — 단안 비디오로부터 동적 비강체 물체의 4D 재구성 (형상+외형+시간).
- 개선 — 복잡한 야외 시퀀스, 특히 심한 폐색과 비강체 움직임이 있는 경우 기존 4D 재구성 방법보다 명확히 개선.
- 평가 — 정량적·정성적 평가에서 Lift4D가 이전 방법들보다 일관되게 우수한 성능을 보임.
방법
- 초기화 — 단일뷰 3D 재구성 모델을 인과적 잠재 조건으로 확장하여 시간적으로 일관된 프레임별 예측을 생성, 변형 가능한 3D Gaussian Splatting의 초기화로 사용.
- 조각 (Sculpting) — Occlusion-aware 최적화로 가시 표면 디테일을 복원하고, 보이지 않는 영역은 뷰 조건부 확산 사전(view-conditioned diffusion prior)을 이용해 완성.
- 핵심 아이디어 — 테스트타임 최적화를 통해 4D 학습 데이터 부족 문제를 우회하고, 초기화와 최적화 모두에서 사전 지식을 활용하여 큰 변형과 폐색에 강건함.
한계·조건
- 계산 비용 — 테스트타임 최적화 방식이므로 추론 시 상당한 계산 시간이 필요할 수 있음 (논문에 구체적 수치 명시되지 않음).
- 데이터 — 단일뷰 3D 재구성 모델과 확산 모델의 사전 학습 데이터에 의존하며, 극단적인 변형이나 보이지 않는 객체 클래스에서는 성능 저하 가능.
- 코드 — 논문 발표 시점에서 코드 공개 여부는 명시되지 않음.
편집자 한 줄
폐색이 심한 동적 장면에서 4D 재구성의 실용성을 높인 접근으로, 특히 확산 사전을 활용한 가려진 영역 완성 전략이 인상적입니다.
- #4d-reconstruction
- #gaussian-splatting
- #monocular-video
- #diffusion-prior
- #lift4d
Yehonathan Litman