← Back to feed
Papers·2일 전

ETH Zurich, GAM — 기하학 기반 모델을 조작 정책으로: 시뮬레이션·실물 12개 태스크에서 23% 성공률 향상

ETH Zurich, GAM — 기하학 기반 모델을 조작 정책으로: 시뮬레이션·실물 12개 태스크에서 23% 성공률 향상

ETH Zurich 팀이 기하학 기반 모델(GFM)을 언어 조건부 조작 정책으로 직접 재사용하는 Geometric Action Model(GAM)을 제안했습니다. GFM의 중간 계층을 관측 인코더로, 분할 지점에 삽입된 인과적 미래 예측기가 언어·프로프리오셉션·액션 히스토리를 조건으로 미래 잠재 토큰을 예측하고, 이후 GFM 블록이 특징 전파와 디코딩을 담당합니다. 시뮬레이션(RLBench, CALVIN)과 실물 조작 벤치마크에서 기존 VLA·WAM 대비 성공률을 평균 23% 높였으며, 추론 속도는 1.7배 빠르고 파라미터 수는 40% 적습니다. 단, GFM 자체의 3D 이해 능력에 크게 의존하므로 GFM이 취약한 물체(투명체, 반사체)에서는 성능 저하가 예상됩니다.

ETH Zurich가 기하학 기반 모델을 조작 정책으로 직접 재사용하는 GAM을 공개했습니다. 시뮬레이션과 실물에서 기존 VLA·WAM 대비 성공률 23% 향상, 속도 1.7배, 파라미터 40% 감소를 달성했습니다.

핵심 결론

  • 태스크언어 조건부 조작 — RLBench 8개 태스크, CALVIN ABC-D, 실물 3개 태스크(픽 앤 플레이스, 서랍 열기, 컵 쌓기)에서 평가.
  • 성능기존 VLA(RT-2, Octo) 및 WAM(UniPi) 대비 성공률 평균 23% 향상. CALVIN ABC-D에서 87% → 94%.
  • 효율추론 속도 1.7배 빠름 (RT-2 대비), 파라미터 수 40% 감소 (GFM 백본 0.6B, 전체 0.8B).

방법

  • 핵심 아이디어GFM을 중간 계층에서 분할 — 앞부분은 관측 인코더, 뒷부분은 미래 예측 및 액션 디코더로 사용.
  • 미래 예측기분할 지점에 causal transformer를 삽입, 언어·프로프리오셉션·액션 히스토리를 조건으로 미래 잠재 토큰을 autoregressive하게 예측.
  • 디코딩예측된 미래 토큰을 GFM의 나머지 블록에 통과시켜 3D 특징 맵을 생성, 이를 액션(6-DOF 그립 포즈)으로 디코딩.
  • GFM의 기하학적 사전을 유지하면서 언어 조건부 시간 모델링을 최소한의 수정으로 추가한 셈입니다.

한계·조건

  • 의존성GFM의 3D 이해 능력에 크게 의존 — 투명체·반사체 등 GFM이 취약한 물체에서는 성능 저하 가능.
  • 데이터시뮬레이션 데이터로 학습, 실물 fine-tuning 없이도 일반화되나 실물 성능은 시뮬레이션 대비 약간 낮음.
  • 코드학습 및 평가 코드는 GitHub 공개 예정, 모델 가중치는 Hugging Face에 업로드 예정.

편집자 한 줄

기하학 기반 모델을 조작 정책으로 재사용하는 접근은 기존 VLA의 2D 한계를 우회하는 실용적인 방향입니다. 다만 GFM의 도메인 한계가 그대로 전이된다는 점은 감안해야 합니다.

  • #manipulation
  • #geometric-foundation-model
  • #eth-zurich
  • #vla
  • #policy-learning
ETH Zürich
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —