Papers·3일 전
NAVER AI Lab, retrieval-augmented VLA 정책 — 새 태스크에 fine-tuning 없이 적응

NAVER AI Lab이 새로운 태스크에 대해 fine-tuning 없이 retrieval만으로 적응하는 VLA 정책을 제안했습니다. 쿼리(타겟 로봇)와 풀(인간 손 영상 등 저렴한 임보디먼트)의 짝지어진 데모로 한 번 학습 후, 배포 시 풀에 데모를 추가하기만 하면 새로운 태스크를 처리합니다. 특히 video-generation 기반 world-action model(Cosmos Policy)과 결합 시 효과가 두드러지며, PushT와 RoboTwin 2.0에서 cross-embodiment 일반화 성능이 향상되었습니다.
NAVER AI Lab이 retrieval-augmented VLA 정책을 통해 새로운 태스크 적응에 fine-tuning이 필요 없음을 보였습니다.
핵심 결론
- 태스크 — 새로운 태스크에 대해 fine-tuning 없이 retrieval만으로 적응하는 VLA 정책.
- 성능 — PushT에서 unseen goal angle에 대한 cross-embodiment 일반화, RoboTwin 2.0에서 unseen 태스크에 대해 cross-embodiment baseline 대비 우위.
- 특징 — Cosmos Policy(video-generation 기반 WAM)와 결합 시 retrieval이 coarse task progression을 제공하고, WAM의 future-image objective가 visual consistency를 강화.
방법
- 아이디어 — 타겟 임보디먼트의 데모(query)와 저렴한 임보디먼트의 데모(pool)를 짝지어 한 번 학습 후, 새 태스크는 pool에 데모를 추가하는 것으로 적응.
- 구조 — Frozen 정책이 매 제어 스텝마다 retrieval된 trajectory를 조건으로 사용, 파라미터 업데이트 없이 새 태스크를 인덱싱.
- 백본 — Retrieval은 표준 VLA 정책에도 효과적이나, Cosmos Policy에서 특히 효과적.
한계·조건
- 필요 조건 — 새로운 임보디먼트가 등장하면 fine-tuning이 필요.
- 데이터 — 타겟 임보디먼트와 풀 임보디먼트 간 paired demonstration이 필요.
- 벤치마크 — PushT와 RoboTwin 2.0에서 평가, 실제 로봇 데모도 포함.
편집자 한 줄
Retrieval-augmented 접근이 fine-tuning 비용을 크게 줄일 수 있다는 점이 실용적으로 매력적입니다. Cosmos Policy와의 시너지도 흥미롭네요.
- #vla
- #retrieval-augmented
- #cross-embodiment
- #naver
NAVER AI Lab