Papers·5일 전
PhaseLock — 이미지-비디오 확산 모델의 물리 일관성 6.2점 향상, 2-step 추론 활용

이미지-비디오 확산 모델에서 50-step보다 2-step 출력이 오히려 물리 법칙을 더 잘 따른다는 발견을 바탕으로, PhaseLock이라는 학습 없는 프레임워크를 제안했습니다. 잡음 제거 과정에서 위상(phase)이 18% 가까이 붕괴하는 현상을 분석해, 2-step에서 추출한 운동 사전(motion prior)을 Latent Delta Guidance로 고품질 생성에 강제하는 방식입니다. 물리 일관성을 평균 6.2점 개선하고, 시각적 충실도는 거의 유지하며, 외부 가이드 대비 5배 빠른 속도를 보입니다.
확산 모델이 생성하는 비디오는 종종 물리 법칙을 위반하는데, 흥미롭게도 2-step 추론이 50-step보다 더 물리적으로 일관된 결과를 냅니다.
핵심 결론
- 발견 — 동일 모델에서 2-step 생성이 50-step보다 물리 일관성이 더 높다는 사실을 처음으로 보고.
- 성능 — PhaseLock 적용 시 물리 일관성 평균 6.2점 향상, 시각적 충실도는 거의 유지.
- 효율 — 추론 시간 1.06배, 메모리 1.02배로 오버헤드 미미, 외부 가이드 대비 5배 빠름.
방법
- 스펙트럼 분석 — 잡음 제거 과정에서 위상(phase)은 2-step에서 50-step으로 갈수록 약 18% 붕괴하지만, 크기(magnitude)는 안정적임을 발견.
- PhaseLock — 2-step에서 운동 사전(motion prior)을 추출한 뒤, Latent Delta Guidance를 통해 전체 디노이징 궤적에 강제하는 학습 없는 프레임워크.
- 호환성 — 다양한 이미지-비디오 확산 모델에 적용 가능하며, 추가 학습 불필요.
한계·조건
- 벤치마크 — 물리 일관성 평가는 주로 단순 동작(중력, 충돌) 위주로, 복잡한 물리 시나리오에서의 일반화는 추가 검증 필요.
- 코드 — 공개 여부는 아직 명시되지 않음.
편집자 한 줄
2-step이 오히려 더 물리적으로 타당하다는 역발상이 흥미롭네요. 위상 붕괴가 핵심 원인이라는 분석도 설득력 있습니다.
- #image-to-video
- #diffusion
- #physical-consistency
- #phase-analysis
Woojung Han