Papers·5일 전
WIZARD: 단일 영상과 명령으로 VLA 로봇 정책을 LoRA 파라미터로 생성 — LIBERO 미발견 태스크 성능 최대 14배 향상

ItalAI 팀이 제안한 WIZARD는 언어 명령과 짧은 시연 영상만으로 VLA 정책의 LoRA 어댑터를 단일 포워드 패스로 생성하는 weight-space meta-learning 프레임워크입니다. LIBERO 벤치에서 미발견 태스크 성능을 최대 14배 개선했으며, 실제 Franka 로봇에서도 적용 가능성을 확인했습니다. 단, meta-training에 대규모 데모 데이터가 필요하고 어댑터 생성이 VLA 파라미터 크기에 의존적입니다.
ItalAI가 VLA 모델의 태스크별 미세조정 없이, 단일 영상과 명령으로 LoRA 파라미터를 생성하는 WIZARD를 공개했습니다.
핵심 결론
- 태스크 — 로봇 조작을 위한 VLA 정책의 태스크별 적응 — 언어 명령 + 짧은 시연 영상만으로 LoRA 어댑터 생성.
- 성능 — LIBERO 미발견 데이터셋 컬렉션에서 최대 2배, 미발견 태스크에서 최대 14배 성능 향상.
- 실제 환경 — Franka Emika Panda 로봇에서 실험, 실제 도메인 적응 베이스라인 대비 일관된 개선 확인.
방법
- 핵심 아이디어 — Weight-space meta-learning: 태스크 증거(영상+명령)를 직접 LoRA 업데이트로 매핑하는 함수를 학습.
- 구조 — 사전학습된 VLA 정책(예: Octo)은 고정하고, WIZARD가 태스크별 LoRA 파라미터를 단일 포워드 패스로 예측.
- 데이터 — Meta-training에는 다양한 태스크의 데모 데이터와 액션 레이블이 필요하지만, 추론 시에는 액션 레이블 불필요.
한계·조건
- 데이터 요구 — Meta-training에 상당한 양의 태스크별 데모와 액션 레이블이 필요 — 제로샷은 아님.
- 스케일 — VLA 모델이 커질수록 LoRA 파라미터 생성기의 크기도 커져야 할 가능성.
- 코드 — 현재 논문만 공개 — 코드 및 모델 가중치 공개 여부 미정.
편집자 한 줄
단일 영상으로 어댑터를 생성한다는 점은 실용적이지만, meta-training 자체의 비용을 고려하면 실제 배포까지는 추가 검증이 필요해 보입니다.
- #vla
- #meta-learning
- #lora
- #robotics
- #italai
ItalAI