Papers·1주 전
Zhejiang University, VLA 모델 일반화 개선 — Action 사전학습으로 OOD 언어 명령 성능 향상

Zhejiang University 팀이 VLA(Vision-Language-Action) 모델의 언어 일반화 문제를 해결하는 APT(Action Expert PreTraining)를 제안했습니다. 기존 VLA는 언어 데이터의 불균형으로 OOD 명령에 취약했는데, APT는 행동 전문가를 먼저 시각-행동 쌍으로 사전학습한 후 게이트 퓨전으로 언어를 주입합니다. π 및 GR00T 아키텍처에서 unseen 명령과 구성적 태스크에서 일관된 성능 향상을 보였습니다. 단, 실험은 시뮬레이션 환경에 국한되어 실제 로봇 적용 시 추가 검증이 필요합니다.
Zhejiang University가 VLA 모델의 언어 일반화를 위한 두 단계 사전학습 방법 APT를 제안했습니다.
핵심 결론
- 태스크 — VLA 모델의 OOD 언어 명령 일반화 성능 개선.
- 결과 — π 및 GR00T 아키텍처에서 unseen 명령과 구성적 태스크에서 일관된 성능 향상.
방법
- 베이지안 분해 — 정책을 언어 무관한 시각-행동 사전(VA prior)과 언어 조건부 VLA 우도로 분해.
- 2단계 학습 — 1단계: 고정 VLM에서 시각-행동 쌍으로 행동 전문가 사전학습. 2단계: 게이트 퓨전 메커니즘으로 언어 토큰 주입.
- 기존 VLA 아키텍처(π, GR00T)에 적용 가능한 점이 흥미롭네요.
한계·조건
- 환경 — 모든 실험은 시뮬레이션 환경에서 수행되어 실제 로봇 일반화는 추가 검증 필요.
- 코드 — 프로젝트 페이지는 공개되었으나 코드 및 모델 가중치 공개 여부는 미정.
편집자 한 줄
VLA의 언어 불균형 문제를 명확히 지적하고 구조적 해법을 제시한 점이 인상적입니다. 실제 로봇에서의 검증이 기대됩니다.
- #vla
- #pretraining
- #generalization
- #zhejiang-university
Zhejiang University