Papers·2일 전
Adobe, sparse 3D box 로 텍스트-비디오 생성 제어 — Trajectory Error 1.2~3x 개선

Adobe 팀이 sparse oriented 3D box 만으로 복잡한 다중 객체 비디오의 레이아웃과 궤적을 제어하는 LooseControlVideo 를 공개했습니다. Wan 2.2 backbone 에 DNOCS 라는 3D 크기·방향·깊이 순서 인코딩을 추가해 fine-tuning 했고, nuScenes·HO-3D·BEHAVE 벤치마크에서 Trajectory Error 1.2~3x, Occlusion Accuracy 1.5~2x 개선을 보였습니다. 다만 dense depth map 기반 방법보다 입력이 가벼운 대신 deformable 객체의 디테일은 다소 희생될 수 있다는 한계가 있습니다.
Adobe 팀이 sparse oriented 3D box 만으로 텍스트-비디오 생성의 공간 배치와 궤적을 직관적으로 제어하는 프레임워크를 제안했습니다.
핵심 결론
- 태스크 — 텍스트-비디오 생성에서 다중 객체의 3D 공간 배치와 동적 궤적 제어.
- 개선폭 — nuScenes, HO-3D, BEHAVE 벤치마크에서 Trajectory Error 1.2~3x, Rigid Motion Consistency 2x, Occlusion Accuracy 1.5~2x 향상.
방법
- 입력 — 사용자는 sparse oriented 3D box 만으로 객체의 위치, 방향, 크기, 궤적을 지정합니다. dense depth map 이 필요 없습니다.
- 인코딩 — DNOCS 라는 새로운 3D 표현으로 size, orientation, depth-ordered occlusion 정보를 인코딩해 Wan 2.2 backbone 에 주입합니다.
- 로컬 편집 — 점프 궤적 수정이나 객체 간 상호작용 추가 같은 국소적 변경이 전역 맥락을 크게 깨지 않도록 설계되었습니다.
한계·조건
- 데이터 — DNOCS 주석이 달린 비디오 데이터셋으로 fine-tuning — 데이터 구축 비용이 추가로 듭니다.
- 디테일 — dense depth map 기반 방법보다 deformable 객체의 디테일은 다소 희생될 수 있습니다.
- 공개 — 코드와 모델 가중치 공개 여부는 아직 확인되지 않았습니다.
편집자 한 줄
3D box 만으로 occlusion 과 trajectory 를 동시에 잡는 접근은 실용적이지만, deformable 객체의 변형 표현은 여전히 과제로 남아 있습니다.
- #text-to-video
- #3d-control
- #adobe
- #wan
Adobe