Papers·어제
VideoMDM: 단안 영상에서 3D 모션 사전 학습 — 2D 포즈만으로 3D 모션 생성, FID 0.88

VideoMDM은 단안 영상에서 추출한 정확한 2D 포즈만으로 3D 인간 모션 사전을 학습하는 확산 기반 프레임워크입니다. 사전 학습된 2D-to-3D 리프터가 제공하는 근사 3D 포즈를 노이즈가 섞인 교사로 사용하고, 모델이 3D에서 잡음을 제거한 후 2D로 재투영하여 정확한 키포인트와 비교함으로써 지도합니다. 깊이 가중 2D 재투영 손실이 기댓값 상에서 직접 3D 지도와 동등함을 보였으며, 속도 일관성 및 과잉 매개변수 표현 정렬 같은 3D 모션 정규화기를 2D 환경에 맞게 조정했습니다. HumanML3D에서 완전 3D 지도 MDM(FID 0.54)에 근접한 FID 0.88을 달성했고, 실제 비디오 데이터셋 Fit3D와 NBA에서 인간 선호도가 높은 모션을 생성했습니다. 단, 2D-to-3D 리프터의 정확도에 의존적이며, 복잡한 상호작용이나 폐색이 심한 경우 성능이 저하될 수 있습니다.
단안 영상에서 3D 모션 사전을 학습하는 VideoMDM이 2D 포즈만으로도 3D 지도에 근접한 성능을 냅니다.
핵심 결론
- 태스크 — 단안 비디오에서 3D 인간 모션 생성 — 3D GT 없이 2D 포즈만으로 학습.
- 벤치마크 — HumanML3D에서 FID 0.88 (완전 3D 지도 MDM은 0.54).
- 실제 데이터 — Fit3D와 NBA에서 인간 평가 기준으로 선호도 우위.
방법
- 아이디어 — 2D-to-3D 리프터로 얻은 근사 3D 포즈를 노이즈 교사로 사용, 3D 확산 후 2D 재투영 손실로 지도.
- 이론 — 깊이 가중 2D 재투영 손실이 기댓값에서 3D 직접 지도와 동등함을 증명.
- 정규화 — 속도 일관성, 과잉 매개변수 표현 정렬 등 3D 정규화기를 2D로 변환 적용.
한계·조건
- 의존성 — 2D-to-3D 리프터의 정확도에 민감 — 리프터가 부정확하면 성능 저하.
- 복잡성 — 폐색이 심하거나 다중 인물 상호작용에서는 현재 평가되지 않음.
- 코드 — GitHub 공개 예정 (현재 논문만 공개).
편집자 한 줄
2D만으로 3D 모션 사전을 학습한다는 점이 실용적이지만, 리프터 품질이 병목이 될 수 있겠네요.
- #video-mdm
- #3d-motion
- #diffusion
- #human-pose
- #monocular-video
Amir Mann