Papers·5일 전
로봇 지능의 병목은 정책 스케일링이 아닌 데이터 인터페이스 — 포지션 페이퍼

이 포지션 페이퍼는 로봇 일반화의 핵심 병목이 정책 스케일링이 아니라, 인간 동작·인터넷 비디오·시뮬레이션 등 비구조적 행동 데이터를 로봇이 사용할 수 있는 형태로 변환하는 인터페이스의 부재라고 주장합니다. 저자는 자동 레이블링, 모션 리타겟팅, 물리 기반 3D 추론, 보상 모델링 등 네 가지 인터페이스를 제안하며, 기존 로봇 파운데이션 모델과의 통합 방향을 제시합니다. 단, 이는 아직 실험 검증이 없는 제안 단계의 연구 아젠다입니다.
로봇 일반화의 병목은 데이터 부족이 아니라, 비구조적 행동 데이터를 로봇이 학습할 수 있는 형태로 변환하는 인터페이스의 부재라는 주장입니다.
핵심 결론
- 주장 — 정책 스케일링만으로는 로봇 일반화가 어려우며, 비구조적 데이터를 로봇 학습에 연결하는 네 가지 인터페이스가 필요합니다.
- 범위 — 인간 동작, 인터넷 비디오, 시뮬레이션 롤아웃, 인터랙티브 데모 등 다양한 데이터 소스를 대상으로 합니다.
방법
- 데이터 인터페이스 — 비구조적 행동 데이터에 자동으로 태스크·접촉·실패 정보를 레이블링하는 파이프라인이 필요합니다.
- 임보디먼트 인터페이스 — 인간 모션을 로봇 액션 공간으로 리타겟팅하는 변환기입니다.
- 월드 모델 인터페이스 — 물리 기반 3D 추론을 통해 비디오에서 로봇이 실행 가능한 표현을 추출합니다.
- 보상 인터페이스 — 비디오와 언어로부터 태스크 진행도와 성공 여부를 추론하는 보상 모델입니다.
한계·조건
- 상태 — 이 논문은 포지션 페이퍼로, 제안된 인터페이스는 아직 구현·실험되지 않았습니다.
- 검증 — 각 인터페이스의 실현 가능성과 스케일링 특성은 향후 연구가 필요합니다.
- 코드 — 코드나 데이터셋은 공개되지 않았습니다.
편집자 한 줄
제안 자체는 직관적으로 설득력 있지만, 각 인터페이스의 구체적 구현 난이도가 상당할 것으로 보입니다.
- #robotics
- #foundation-models
- #data-interfaces
- #imitation-learning
Elis Karcini