Papers·2주 전
VLA 초기화를 위한 VLM 표현 — LoRA 기반 단계적 학습이 가장 효과적

중국 홍콩중문대 연구팀이 VLA(Vision-Language-Action) 모델 초기화에 적합한 VLM 표현을 세 가지 축(embodied VQA 지도, 파라미터 업데이트 전략, 로봇 데이터 사전학습)으로 분석했습니다. 원래 VLM 표현이 행동 성능의 핵심이며, LoRA 기반 단계적 학습이 Full Finetune보다 초기화에 더 안정적이라는 점을 밝혔습니다. 단, embodied VQA 적응의 이득은 하류 과목 병목에 의존해 일관되지 않습니다.
VLA 모델이 VLM을 정책 백본으로 쓸 때, 어떤 사전학습 표현이 효과적인 초기화가 되는지 체계적으로 분석했습니다.
핵심 결론
- 핵심 발견 — 원래 VLM 표현이 행동 성능의 주요 원천이며, LoRA 기반 단계적 학습이 가장 강력한 VLA 초기화를 제공합니다.
- 성능 — Embodied VQA 적응은 하류 과목에 따라 이득이 일관되지 않으며, 단순히 여러 능력을 더한다고 합산되지 않습니다.
방법
- 세 가지 축 — Capability-level embodied VQA 지도, 파라미터 업데이트 전략(Full Finetune vs LoRA), 로봇 데이터 사전학습을 조작하며 실험했습니다.
- LoRA 우위 — LoRA가 Full Finetune보다 초기화에 더 안정적이었는데, 과도하게 표현을 재형성하면 VLA 초기화가 약해지기 때문입니다.
- 단계적 학습 — 가장 강력한 변형은 staged LoRA 기반 학습으로, 로봇 데이터 사전학습을 추가로 적용한 경우였습니다.
한계·조건
- 범위 — 실험은 특정 VLM 및 로봇 데이터셋에 국한되어 일반화 가능성은 추가 검증이 필요합니다.
- 재현성 — 코드와 데이터셋은 공개되지 않았으며, 논문 내 ablation 결과만 보고되었습니다.
편집자 한 줄
VLA 초기화 설계에 실용적인 가이드라인을 제시한 점이 인상적입니다. 특히 LoRA의 안정성은 실제 학습 파이프라인에 바로 적용해볼 만합니다.
- #vla
- #vlm
- #initialization
- #lora
- #robotics
The Chinese University of Hong Kong