Papers·1주 전
CMU, VLM과 VLA 간 데이터 분포 차이를 메우는 EmbodiedMidtrain — 로봇 조작 3개 벤치마크에서 일관된 성능 향상

CMU Chenyan Xiong 그룹이 VLM을 VLA에 적합하게 중간 학습(mid-training)하는 프레임워크 EmbodiedMidtrain을 제안했습니다. VLM과 VLA 데이터 분포 차이를 분석한 결과, VLA 데이터는 VLM 분포에서 떨어진 좁은 영역에 위치하며, VLM 데이터 소스 내에서도 정렬 정도가 크게 다릅니다. 이를 해결하기 위해 경량 근접성 추정기로 VLA에 가장 잘 맞는 VLM 데이터를 선별해 중간 학습한 후, 3개 로봇 조작 벤치마크에서 VLM 백본에 관계없이 일관된 성능 향상을 보였습니다. 단, 이 방식은 대규모 VLM 데이터 풀과 추가 학습 비용이 필요하며, 코드·데이터·모델은 공개 예정입니다.
- #vla
- #vlm
- #embodied-ai
- #cmu
- #robot-manipulation
Chenyan Xiong Research Group at CMU