Papers·2일 전
UMich, 단일 RGB-D + 언어로 '어디를·어떻게' 조작할지 예측하는 Affordance 기반 모델 AFUN 공개

University of Michigan 팀이 단일 RGB-D 관찰과 언어 태스크 설명으로부터 '어디를 잡을지(기능 마스크)'와 '어떻게 움직일지(3D 접촉 후 운동 곡선)'를 동시에 예측하는 affordance 기반 모델 AFUN을 발표했습니다. 로봇·인간·시뮬레이션·실세계 스캔 데이터를 통합한 대규모 파이프라인으로 훈련되어, 8개 테스트 세트에서 affordance 분할 gIoU/cIoU를 각각 +23.9/+26.3 향상시켰고, 접촉점 예측 히트율은 최대 61.3% 개선했습니다. 단, 모든 벤치마크가 정적 객체 중심이며 동적 환경에서의 일반화는 추가 검증이 필요합니다.
UMich 팀이 단일 RGB-D와 언어 명령만으로 물체의 조작 가능 영역과 후속 동작 궤적을 동시에 예측하는 affordance 기반 모델 AFUN을 공개했습니다.
핵심 결론
- 태스크 — 단일 RGB-D + 언어 → '어디를(기능 마스크)' + '어떻게(3D 접촉 후 운동 곡선)' 예측.
- 분할 성능 — 8개 테스트 세트(4개 벤치마크)에서 mean gIoU +23.9, cIoU +26.3 향상.
- 접촉점 — 최고 baseline 대비 hit-rate 12.7~61.3% 개선.
- 3D 운동 — 3개 테스트 세트 모두에서 최고 성능.
방법
- 아키텍처 — RGB-D와 언어 임베딩을 cross-attention으로 융합, affordance mask와 3D motion curve를 분기 예측.
- 데이터 파이프라인 — 로봇·인간·시뮬레이션·실세계 스캔 데이터를 통합해 언어·마스크·객체 중심 3D motion 레이블로 변환하는 표준화된 파이프라인 구축.
- 일반화 — 파인튜닝 없이 로봇 embodiment에 적용 가능, task-specific heuristic 불필요.
한계·조건
- 환경 — 모든 벤치마크는 정적 객체 중심; 동적 환경·움직이는 물체에 대한 일반화는 추가 검증 필요.
- 데이터 — 파이프라인 규모는 공개되었으나 훈련 데이터셋 자체의 배포 여부는 미정.
- 코드 — 프로젝트 페이지에서 모델 가중치 및 코드 공개 예정.
편집자 한 줄
affordance + motion curve를 동시에 예측하는 접근은 로봇 조작 파이프라인을 단순화할 가능성이 크지만, 실제 로봇에 올렸을 때의 동적 robustness는 후속 연구를 지켜봐야 할 만합니다.
- #affordance
- #robot-manipulation
- #university-of-michigan
- #rgb-d
- #foundation-model
University of Michigan