Papers·2주 전
WorldCraft: 비디오 월드 모델에 객체 조작 추가 — 카메라 내비게이션 유지하며 궤적 제어

Tencent 팀이 비디오 기반 월드 모델에 객체 수준의 궤적 제어를 추가한 WorldCraft를 공개했습니다. 카메라 내비게이션은 유지하면서 사용자가 클릭과 스케치 경로로 객체를 이동시키며 미래 프레임을 생성합니다. 핵심은 카메라 불변 좌표계(NWT)로 객체 움직임을 분리하고, SP-LoRA로 사전 학습된 카메라 제어기를 보존하며 객체 조작을 주입하는 점입니다. 단, 현재는 단일 객체 궤적에 국한되며 복잡한 상호작용(충돌, 물리)은 지원하지 않습니다.
Tencent가 비디오 월드 모델을 카메라 내비게이션에서 객체 조작으로 확장한 WorldCraft를 발표했습니다.
핵심 결론
- 태스크 — 사용자 클릭+스케치 경로로 객체를 이동시키며 미래 프레임 생성, 카메라 내비게이션 유지.
- 성능 — 객체 제어 정확도와 카메라 충실도 모두 유지, 장기 롤아웃에서 객체 상태 보존.
방법
- NWT — Normalized World Trajectory: 사용자 드로잉을 카메라 불변 좌표계로 변환, 객체 움직임과 카메라 변위 분리.
- SP-LoRA — Spatial-Pathway LoRA: 월드 공간 신호를 spatial-control pathway에 주입, 사전 학습된 카메라 제어기는 그대로 유지.
- TASP — Trajectory-Anchored State Persistence: 궤적을 영구 상태로 취급, 객체가 시야를 벗어나도 위치 유지.
한계·조건
- 단일 객체 궤적만 지원, 복잡한 물리 상호작용(충돌, 변형)은 미포함.
- 코드 및 모델 가중치 공개 여부는 아직 확인되지 않음.
편집자 한 줄
카메라 내비게이션과 객체 조작을 분리한 설계는 깔끔하지만, 실제 환경의 물리적 제약까지 다루려면 추가 연구가 필요해 보입니다.
- #world-models
- #object-control
- #video-generation
- #tencent
Tencent