← Back to feed
Papers·1주 전

OmniDirector: 참조 영상으로부터 카메라 모션 복제 — 멀티샷 생성에서 SOTA

OmniDirector: 참조 영상으로부터 카메라 모션 복제 — 멀티샷 생성에서 SOTA

Kling 팀이 참조 영상의 카메라 모션을 복제하는 통합 프레임워크 OmniDirector를 공개했습니다. 카메라 파라미터를 그리드 모션 비디오로 인코딩하는 일반 표현을 도입해, 기존 방식의 데이터 부족 문제를 해결하고 멀티샷 생성을 지원합니다. 백만 규모의 카메라 그리드-비디오 쌍으로 학습된 멀티모달 diffusion transformer로, 캐릭터·동작·카메라를 조율하는 디렉터 수준 제어가 가능합니다. 다만 복잡한 카메라 움직임에서도 성능이 우수하나, 학습 데이터 규모와 도메인 한계는 추가 검증이 필요합니다.

참조 영상의 카메라 움직임을 정밀하게 복제하면서도 멀티샷 생성을 지원하는 통합 프레임워크가 등장했습니다.

핵심 결론

  • 태스크참조 영상에서 카메라 모션을 복제하는 비디오 생성 — 멀티샷 시나리오에서 기존 방법 대비 우수한 성능.
  • 벤치다양한 복잡도 카메라 움직임에 대해 정성·정량 평가에서 SOTA 달성, 특히 멀티샷 일관성에서 큰 격차.

방법

  • 표현카메라 파라미터를 그리드 모션 비디오로 인코딩하는 일반 표현을 도입해, 파라메트릭 방식의 한계와 데이터 부족 문제를 동시에 해결.
  • 프레임워크OmniDirector는 백만 규모의 카메라 그리드-비디오 쌍으로 학습된 멀티모달 diffusion transformer로, 캐릭터·동작·카메라를 통합 제어.
  • 프롬프트계층적 프롬프트 확장 에이전트가 카메라 모션과 시각 콘텐츠를 체계적으로 기술해 서로 다른 제어 신호를 조화.

한계·조건

  • 데이터백만 쌍 규모의 합성 데이터로 학습되었으며, 실제 영상 도메인에서의 일반화는 추가 검증 필요.
  • 복잡도매우 복잡하거나 극단적인 카메라 움직임에서는 여전히 아티팩트가 발생할 수 있음.
  • 공개프로젝트 페이지와 논문은 공개되었으나, 코드 및 모델 가중치는 아직 미공개.

편집자 한 줄

카메라 모션 복제를 위한 일반 표현과 대규모 학습 데이터의 조합이 인상적입니다. 실제 영상 도메인에서의 성능과 코드 공개가 기대되는 연구네요.

  • #camera-motion
  • #video-generation
  • #diffusion-transformer
  • #kling
Kling Team
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —