← Back to feed
Papers·2일 전

Peking University, VLA에 affordance 예측 도입 — 시뮬+실물 6개 태스크 평균 23% 성공률 향상

Peking University, VLA에 affordance 예측 도입 — 시뮬+실물 6개 태스크 평균 23% 성공률 향상

Peking University 팀이 VLA 모델에 structured affordance forecasting을 중간 표현으로 도입한 AffordanceVLA를 제안했습니다. Which2Act(객체 중심 grounding), Where2Act(2D 상호작용 위치), How2Act(3D 기하 추론) 세 가지 모듈을 Mixture-of-Transformer로 통합하고 3단계 학습 전략을 적용했습니다. 시뮬레이션과 실제 로봇 실험에서 6개 태스크 평균 성공률이 기존 VLA 대비 23% 향상되었으나, dense affordance 라벨의 부족을 데이터 증강 파이프라인으로 보완한 점이 한계로 남습니다.

VLA 모델의 구조적 불일치를 affordance 기반 중간 표현으로 해결한 연구입니다.

핵심 결론

  • 성능시뮬레이션 및 실제 로봇 6개 태스크에서 기존 VLA 대비 평균 성공률 23% 향상.
  • 비교기존 VLA(Octo, RT-2 등) 대비 모든 태스크에서 우위, 특히 복잡한 조작 태스크에서 격차가 큼.

방법

  • 세 가지 모듈Which2Act(시각적 잠재 예측으로 객체 중심 grounding), Where2Act(affordance 맵 추정으로 2D 위치), How2Act(3D 기하 추론으로 조작 정책 가이드).
  • 아키텍처Mixture-of-Transformer(MoT)로 각 모듈을 전문가(expert)로 구성, 3단계 학습(curriculum)으로 점진적 훈련.
  • 데이터 증강로봇 데이터셋의 affordance 라벨 부족을 해결하기 위해 자동 데이터 증강 파이프라인 개발.

한계·조건

  • 데이터 의존dense affordance 라벨이 있는 데이터가 여전히 부족하여 증강 파이프라인에 크게 의존.
  • 환경실험은 특정 로봇 플랫폼(UR5, Franka)에 국한, 일반화 검증 필요.
  • 코드GitHub 공개 예정이나 현재는 논문만 공개.

편집자 한 줄

affordance를 VLA에 통합하는 직관적인 접근이지만, 증강 파이프라인의 실제 로봇 데이터 적용 가능성은 추가 검증이 필요해 보입니다.

  • #vla
  • #affordance
  • #robotics
  • #peking-university
  • #mixture-of-transformers
Peking University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —