Papers·1개월 전

NAVER AI Lab, retrieval-augmented VLA 정책 — 새 태스크에 fine-tuning 없이 적응

NAVER AI Lab이 새로운 태스크에 대해 fine-tuning 없이 retrieval만으로 적응하는 VLA 정책을 제안했습니다. 쿼리(타겟 로봇)와 풀(인간 손 영상 등 저렴한 임보디먼트)의 짝지어진 데모로 한 번 학습 후, 배포 시 풀에 데모를 추가하기만 하면 새로운 태스크를 처리합니다. 특히 video-generation 기반 world-action model(Cosmos Policy)과 결합 시 효과가 두드러지며, PushT와 RoboTwin 2.0에서 cross-embodiment 일반화 성능이 향상되었습니다.

NAVER AI Lab이 retrieval-augmented VLA 정책을 통해 새로운 태스크 적응에 fine-tuning이 필요 없음을 보였습니다.

핵심 결론

태스크 — 새로운 태스크에 대해 fine-tuning 없이 retrieval만으로 적응하는 VLA 정책.
성능 — PushT에서 unseen goal angle에 대한 cross-embodiment 일반화, RoboTwin 2.0에서 unseen 태스크에 대해 cross-embodiment baseline 대비 우위.
특징 — Cosmos Policy(video-generation 기반 WAM)와 결합 시 retrieval이 coarse task progression을 제공하고, WAM의 future-image objective가 visual consistency를 강화.

방법

아이디어 — 타겟 임보디먼트의 데모(query)와 저렴한 임보디먼트의 데모(pool)를 짝지어 한 번 학습 후, 새 태스크는 pool에 데모를 추가하는 것으로 적응.
구조 — Frozen 정책이 매 제어 스텝마다 retrieval된 trajectory를 조건으로 사용, 파라미터 업데이트 없이 새 태스크를 인덱싱.
백본 — Retrieval은 표준 VLA 정책에도 효과적이나, Cosmos Policy에서 특히 효과적.

한계·조건

필요 조건 — 새로운 임보디먼트가 등장하면 fine-tuning이 필요.
데이터 — 타겟 임보디먼트와 풀 임보디먼트 간 paired demonstration이 필요.
벤치마크 — PushT와 RoboTwin 2.0에서 평가, 실제 로봇 데모도 포함.

편집자 한 줄

Retrieval-augmented 접근이 fine-tuning 비용을 크게 줄일 수 있다는 점이 실용적으로 매력적입니다. Cosmos Policy와의 시너지도 흥미롭네요.

#vla
#retrieval-augmented
#cross-embodiment
#naver

NAVER AI Lab

원문 보기 →

NAVER AI Lab, retrieval-augmented VLA 정책 — 새 태스크에 fine-tuning 없이 적응

핵심 결론

방법

한계·조건

Comments