Papers·2일 전
Qwen-RobotWorld: 언어 조건부 비디오 월드 모델 — 20+ 로봇 태스크 통합, EWMBench 1위

Qwen 팀이 언어를 통합 액션 인터페이스로 삼는 비디오 월드 모델 Qwen-RobotWorld를 공개했습니다. 로봇 조작, 자율주행, 실내 내비게이션, 인간-로봇 전이 등 20개 이상의 태스크에서 미래 시각 궤적을 예측하며, EWMBench와 DreamGen Bench에서 종합 1위를 기록했습니다. 핵심은 60층 double-stream MMDiT에 Qwen2.5-VL 시맨틱을 주입하는 joint attention 구조와 8.6M 비디오-텍스트 코퍼스 EWK, 그리고 General+Expert 2단계 커리큘럼 학습입니다. 단, 200M+ 프레임 데이터셋 규모와 60층 트랜스포머의 compute 요구가 상당해 재현성에 주의가 필요합니다.
Qwen 팀이 언어를 통합 액션 인터페이스로 삼는 비디오 월드 모델을 제안했습니다.
핵심 결론
- 벤치마크 — EWMBench, DreamGen Bench에서 종합 1위, WorldModelBench와 PBench에서도 오픈소스 모델 중 최고 성능.
- 태스크 — 로봇 조작, 자율주행, 실내 내비게이션, 인간-로봇 전이 등 20+ embodiment, 500+ 액션 카테고리.
- RoboTwin-IF 제로샷 평가에서도 강건한 일반화와 멀티뷰 일관성을 보였습니다.
방법
- 아키텍처 — 60층 double-stream MMDiT — Qwen2.5-VL의 언어 시맨틱과 video-VAE latent를 layer-wise joint attention으로 결합.
- 데이터 — Embodied World Knowledge (EWK): 8.6M 비디오-텍스트 쌍, 200M+ 프레임, 액션-언어 매핑 포함.
- 학습 — General+Expert Progressive Curriculum: 1단계 일반 시각 프라이어 학습 후 2단계에서 공유 언어 인터페이스로 전문화 주입.
한계·조건
- 리소스 — 60층 diffusion transformer + 대규모 데이터셋으로 학습 비용이 상당할 것으로 예상됩니다.
- 공개 — Hugging Face에 모델 가중치와 데이터셋 일부가 공개되어 있으나, 전체 EWK 데이터셋은 미공개.
- 실시간 추론 속도에 대한 보고는 아직 없어, 실제 로봇 제어에 사용되려면 추가 최적화가 필요해 보입니다.
편집자 한 줄
통합 액션 인터페이스로 다양한 embodiment를 커버하려는 시도는 인상적이지만, 60층 MMDiT의 추론 비용이 실제 배포의 걸림돌이 될 수 있겠네요.
- #world-model
- #video-generation
- #robotics
- #qwen
- #embodied-ai
Qwen