Papers·1개월 전

로봇 지능의 병목은 정책 스케일링이 아닌 데이터 인터페이스 — 포지션 페이퍼

이 포지션 페이퍼는 로봇 일반화의 핵심 병목이 정책 스케일링이 아니라, 인간 동작·인터넷 비디오·시뮬레이션 등 비구조적 행동 데이터를 로봇이 사용할 수 있는 형태로 변환하는 인터페이스의 부재라고 주장합니다. 저자는 자동 레이블링, 모션 리타겟팅, 물리 기반 3D 추론, 보상 모델링 등 네 가지 인터페이스를 제안하며, 기존 로봇 파운데이션 모델과의 통합 방향을 제시합니다. 단, 이는 아직 실험 검증이 없는 제안 단계의 연구 아젠다입니다.

로봇 일반화의 병목은 데이터 부족이 아니라, 비구조적 행동 데이터를 로봇이 학습할 수 있는 형태로 변환하는 인터페이스의 부재라는 주장입니다.

핵심 결론

주장 — 정책 스케일링만으로는 로봇 일반화가 어려우며, 비구조적 데이터를 로봇 학습에 연결하는 네 가지 인터페이스가 필요합니다.
범위 — 인간 동작, 인터넷 비디오, 시뮬레이션 롤아웃, 인터랙티브 데모 등 다양한 데이터 소스를 대상으로 합니다.

방법

데이터 인터페이스 — 비구조적 행동 데이터에 자동으로 태스크·접촉·실패 정보를 레이블링하는 파이프라인이 필요합니다.
임보디먼트 인터페이스 — 인간 모션을 로봇 액션 공간으로 리타겟팅하는 변환기입니다.
월드 모델 인터페이스 — 물리 기반 3D 추론을 통해 비디오에서 로봇이 실행 가능한 표현을 추출합니다.
보상 인터페이스 — 비디오와 언어로부터 태스크 진행도와 성공 여부를 추론하는 보상 모델입니다.

한계·조건

상태 — 이 논문은 포지션 페이퍼로, 제안된 인터페이스는 아직 구현·실험되지 않았습니다.
검증 — 각 인터페이스의 실현 가능성과 스케일링 특성은 향후 연구가 필요합니다.
코드 — 코드나 데이터셋은 공개되지 않았습니다.

편집자 한 줄

제안 자체는 직관적으로 설득력 있지만, 각 인터페이스의 구체적 구현 난이도가 상당할 것으로 보입니다.

#robotics
#foundation-models
#data-interfaces
#imitation-learning

Elis Karcini

원문 보기 →

로봇 지능의 병목은 정책 스케일링이 아닌 데이터 인터페이스 — 포지션 페이퍼

핵심 결론

방법

한계·조건

Comments