Papers·2개월 전

Qwen-VLA: 통합 로봇 기초 모델 — LIBERO 97.9%, R2R 69.0% OSR

Qwen 팀이 조작, 내비게이션, 궤적 예측을 하나의 VLA 모델로 통합한 Qwen-VLA를 공개했습니다. DiT 기반 액션 디코더로 연속 액션과 궤적을 생성하며, 로봇별 텍스트 프롬프트로 다양한 플랫폼을 지원합니다. LIBERO 97.9%, Simpler-WidowX 73.7%, R2R 69.0% OSR 등 여러 벤치에서 멀티태스크 성능과 OOD 일반화를 보였지만, 실물 ALOHA OOD 성공률 76.9%는 조건부 환경에서 측정된 점을 감안해야 합니다.

Qwen 팀이 조작·내비게이션·궤적 예측을 단일 VLA 모델로 통합한 Qwen-VLA를 공개했습니다.

핵심 결론

벤치마크 — Qwen-VLA-Instruct: LIBERO 97.9%, Simpler-WidowX 73.7%, RoboTwin-Easy/Hard 86.1%/87.2%, R2R OSR 69.0%, RxR SR 59.6%, 실물 ALOHA OOD 평균 76.9%, DOMINO zero-shot 26.6%.
일반화 — 장면 배치·배경·조명·물체 구성·로봇 형태 변화에 대해 OOD 일반화를 보였습니다.

방법

아키텍처 — Qwen의 VLM 스택 위에 DiT 기반 액션 디코더를 얹어 연속 액션과 궤적을 생성합니다.
통합 프레임워크 — 조작·내비게이션·궤적 예측을 하나의 액션-궤적 예측 태스크로 통합, 로봇 형태·태스크·환경 간 전이 가능한 시각적 근거·공간 추론·연속 액션 생성을 실현.
데이터 — 로봇 조작 궤적, 인간 에고센트릭 데모, 합성 시뮬레이션, VLN 데이터, 궤적 중심 데이터, 보조 VLM 데이터 등 대규모 혼합 데이터로 공동 사전학습.
임베디먼트 인식 — 로봇별 텍스트 설명으로 현재 임베디먼트와 제어 규약을 지정하는 조건부 프롬프트를 도입했습니다.

한계·조건

리소스 — 학습에 대규모 데이터와 컴퓨팅이 필요하며, 구체적인 GPU 시간은 공개되지 않았습니다.
벤치 특이성 — DOMINO zero-shot 성공률 26.6%는 동적 조작의 어려움을 반영하며, 실물 ALOHA OOD는 특정 조건에서 측정되었습니다.
코드 — Hugging Face에 모델 가중치와 추론 코드가 공개될 예정이나, 현재는 논문과 데모만 확인 가능합니다.

편집자 한 줄

로봇 형태와 태스크를 가로지르는 통합 VLA 접근은 확장성 측면에서 의미 있는 방향입니다. 다만 실물 환경에서의 격차가 여전히 존재하므로, 후속 연구에서 데이터 효율성과 동적 환경 대응이 개선될지 지켜볼 만합니다.

#robotics
#vla
#qwen
#embodied-ai
#generalization

Qwen

원문 보기 →

Qwen-VLA: 통합 로봇 기초 모델 — LIBERO 97.9%, R2R 69.0% OSR

핵심 결론

방법

한계·조건

Comments