Papers·1개월 전

정보 이론 기반 어댑터로 VLA 모델 시각 교란에 30% 성능 향상

북경대 연구팀이 Vision-Language-Action(VLA) 모델이 학습 데이터에 없는 시각적 교란(잡음, 왜곡 등)에 취약하다는 문제를 지적하고, 정보 병목 이론에 기반한 경량 어댑터(IB-Adapter)를 제안했습니다. 이 어댑터는 추가 데이터나 증강 없이도 입력 시각 특징에서 잡음을 걸러내며, 10M 미만의 파라미터만으로 baseline 대비 평균 30% 성능을 개선합니다. 특히 0.5B 파라미터의 소형 백본(StableVLA)으로도 7B급 VLA와 견줄 만한 강건성을 보였으나, 실험은 Open X-Embodiment 데이터셋 없이 자체 환경에서 진행된 점은 감안할 필요가 있습니다.

#vla
#robustness
#information-bottleneck
#peking-university

Peking University

원문 보기 →

정보 이론 기반 어댑터로 VLA 모델 시각 교란에 30% 성능 향상

Comments