← Back to feed
Papers·2일 전

Qwen-RobotWorld: 언어 조건부 비디오 월드 모델 — 20+ 로봇 태스크 통합, EWMBench 1위

Qwen-RobotWorld: 언어 조건부 비디오 월드 모델 — 20+ 로봇 태스크 통합, EWMBench 1위

Qwen 팀이 언어를 통합 액션 인터페이스로 삼는 비디오 월드 모델 Qwen-RobotWorld를 공개했습니다. 로봇 조작, 자율주행, 실내 내비게이션, 인간-로봇 전이 등 20개 이상의 태스크에서 미래 시각 궤적을 예측하며, EWMBench와 DreamGen Bench에서 종합 1위를 기록했습니다. 핵심은 60층 double-stream MMDiT에 Qwen2.5-VL 시맨틱을 주입하는 joint attention 구조와 8.6M 비디오-텍스트 코퍼스 EWK, 그리고 General+Expert 2단계 커리큘럼 학습입니다. 단, 200M+ 프레임 데이터셋 규모와 60층 트랜스포머의 compute 요구가 상당해 재현성에 주의가 필요합니다.

Qwen 팀이 언어를 통합 액션 인터페이스로 삼는 비디오 월드 모델을 제안했습니다.

핵심 결론

  • 벤치마크EWMBench, DreamGen Bench에서 종합 1위, WorldModelBench와 PBench에서도 오픈소스 모델 중 최고 성능.
  • 태스크로봇 조작, 자율주행, 실내 내비게이션, 인간-로봇 전이 등 20+ embodiment, 500+ 액션 카테고리.
  • RoboTwin-IF 제로샷 평가에서도 강건한 일반화와 멀티뷰 일관성을 보였습니다.

방법

  • 아키텍처60층 double-stream MMDiT — Qwen2.5-VL의 언어 시맨틱과 video-VAE latent를 layer-wise joint attention으로 결합.
  • 데이터Embodied World Knowledge (EWK): 8.6M 비디오-텍스트 쌍, 200M+ 프레임, 액션-언어 매핑 포함.
  • 학습General+Expert Progressive Curriculum: 1단계 일반 시각 프라이어 학습 후 2단계에서 공유 언어 인터페이스로 전문화 주입.

한계·조건

  • 리소스60층 diffusion transformer + 대규모 데이터셋으로 학습 비용이 상당할 것으로 예상됩니다.
  • 공개Hugging Face에 모델 가중치와 데이터셋 일부가 공개되어 있으나, 전체 EWK 데이터셋은 미공개.
  • 실시간 추론 속도에 대한 보고는 아직 없어, 실제 로봇 제어에 사용되려면 추가 최적화가 필요해 보입니다.

편집자 한 줄

통합 액션 인터페이스로 다양한 embodiment를 커버하려는 시도는 인상적이지만, 60층 MMDiT의 추론 비용이 실제 배포의 걸림돌이 될 수 있겠네요.

  • #world-model
  • #video-generation
  • #robotics
  • #qwen
  • #embodied-ai
Qwen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —