Papers·2일 전
Peking University, VLA에 affordance 예측 도입 — 시뮬+실물 6개 태스크 평균 23% 성공률 향상

Peking University 팀이 VLA 모델에 structured affordance forecasting을 중간 표현으로 도입한 AffordanceVLA를 제안했습니다. Which2Act(객체 중심 grounding), Where2Act(2D 상호작용 위치), How2Act(3D 기하 추론) 세 가지 모듈을 Mixture-of-Transformer로 통합하고 3단계 학습 전략을 적용했습니다. 시뮬레이션과 실제 로봇 실험에서 6개 태스크 평균 성공률이 기존 VLA 대비 23% 향상되었으나, dense affordance 라벨의 부족을 데이터 증강 파이프라인으로 보완한 점이 한계로 남습니다.
VLA 모델의 구조적 불일치를 affordance 기반 중간 표현으로 해결한 연구입니다.
핵심 결론
- 성능 — 시뮬레이션 및 실제 로봇 6개 태스크에서 기존 VLA 대비 평균 성공률 23% 향상.
- 비교 — 기존 VLA(Octo, RT-2 등) 대비 모든 태스크에서 우위, 특히 복잡한 조작 태스크에서 격차가 큼.
방법
- 세 가지 모듈 — Which2Act(시각적 잠재 예측으로 객체 중심 grounding), Where2Act(affordance 맵 추정으로 2D 위치), How2Act(3D 기하 추론으로 조작 정책 가이드).
- 아키텍처 — Mixture-of-Transformer(MoT)로 각 모듈을 전문가(expert)로 구성, 3단계 학습(curriculum)으로 점진적 훈련.
- 데이터 증강 — 로봇 데이터셋의 affordance 라벨 부족을 해결하기 위해 자동 데이터 증강 파이프라인 개발.
한계·조건
- 데이터 의존 — dense affordance 라벨이 있는 데이터가 여전히 부족하여 증강 파이프라인에 크게 의존.
- 환경 — 실험은 특정 로봇 플랫폼(UR5, Franka)에 국한, 일반화 검증 필요.
- 코드 — GitHub 공개 예정이나 현재는 논문만 공개.
편집자 한 줄
affordance를 VLA에 통합하는 직관적인 접근이지만, 증강 파이프라인의 실제 로봇 데이터 적용 가능성은 추가 검증이 필요해 보입니다.
- #vla
- #affordance
- #robotics
- #peking-university
- #mixture-of-transformers
Peking University