← Back to feed
Papers·2일 전

DreamX-World 1.0: 텍스트/이미지로 제어 가능한 장기 비디오 월드 모델 — 카메라·이벤트 제어, 16FPS

DreamX-World 1.0: 텍스트/이미지로 제어 가능한 장기 비디오 월드 모델 — 카메라·이벤트 제어, 16FPS

AMAP-ML 팀이 카메라 내비게이션, 재방문, 프롬프트 이벤트를 지원하는 범용 월드 모델 DreamX-World 1.0을 공개했습니다. Unreal Engine 렌더링, 게임플레이, 실제 영상을 결합한 데이터 엔진과 E-PRoPE 위치 인코딩으로 카메라 제어를 정밀하게 하며, 인과적 강제와 DMD 증류로 양방향 생성기를 자기회귀 월드 모델로 변환했습니다. 5초 기본 평가에서 카메라 제어 점수 73.75, 종합 점수 84.76으로 HY-WorldPlay 1.5(80.79)와 LingBot-World(80.45)를 앞질렀습니다. 단, 8x RTX 5090 환경에서 16FPS로 동작하며, 혼합 정밀도 DiT와 75% 프루닝된 VAE 디코딩 등 최적화가 필요합니다.

AMAP-ML이 카메라 내비게이션, 재방문, 프롬프트 이벤트를 지원하는 장기 비디오 월드 모델 DreamX-World 1.0을 발표했습니다.

핵심 결론

  • 성능5초 기본 평가에서 카메라 제어 점수 73.75, 종합 점수 84.76으로 HY-WorldPlay 1.5(80.79)와 LingBot-World(80.45)를 능가.
  • 속도8x RTX 5090에서 최대 16FPS, 혼합 정밀도 DiT와 비동기 파이프라인 병렬화로 실시간에 근접.

방법

  • 데이터 엔진카메라 정확한 Unreal Engine 렌더링, 액션 풍부한 게임플레이 녹화, 복원된 카메라 기하학을 가진 실제 영상을 결합.
  • E-PRoPEPRoPE의 투영 카메라 기하학을 유지하면서 공간 축소 토큰에 카메라 인식 어텐션을 적용하는 경량 위치 인코딩.
  • 자기회귀 변환양방향 비디오 생성기를 인과적 강제, DMD 증류, 장기 롤아웃 훈련을 통해 몇 단계 자기회귀 월드 모델로 변환.
  • 메모리 조건부 장면 지속성카메라 기하학 기반 검색으로 이전 뷰를 가져와 조건화 경로를 개선, 잔차 재활용으로 불완전한 메모리 잠재에 덜 민감하게 함.
  • 이벤트 명령 튜닝합성 가능한 이벤트 제어를 추가하고, 강화 학습 정렬로 증류 후 카메라 제어와 시각 품질을 회복.

한계·조건

  • 하드웨어8x RTX 5090 환경 기준, 단일 GPU에서는 속도가 크게 낮아질 것으로 보입니다.
  • 평가5초 기본 평가만 공개, 더 긴 시간이나 다양한 도메인에서의 일반화는 추가 검증이 필요합니다.
  • 코드현재 논문과 데모만 공개, 코드와 모델 가중치는 추후 공개 예정입니다.

편집자 한 줄

카메라 제어와 이벤트 제어를 동시에 지원하는 점이 인상적이지만, 8 GPU 환경을 요구하는 점은 실제 적용에 진입 장벽이 될 수 있겠네요.

  • #world-model
  • #video-generation
  • #camera-control
  • #amap-ml
  • #diffusion
AMAP-ML
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —