Papers·어제
RepWAM: 표현 중심 세계 행동 모델 — 시각-행동 토크나이저로 로봇 조작 성능 향상

Fudan University 팀이 표현 중심 세계 행동 모델 RepWAM을 제안했습니다. 기존 재구성 중심 비디오 토크나이저 대신 의미적 시각-행동 잠재 공간을 학습해, 언어 명령 하에 미래 시각 상태와 잠재 행동을 공동 예측합니다. 실제 로봇 조작 태스크와 시뮬레이션 벤치마크에서 다양한 환경에 강한 성능을 보였으며, 재구성 중심 방식보다 우수함을 ablation으로 확인했습니다. 코드와 가중치는 GitHub 공개 예정입니다.
Fudan University가 표현 중심 세계 행동 모델 RepWAM을 공개했습니다. 재구성 중심 비디오 토크나이저 대신 의미적 시각-행동 잠재 공간을 활용해 로봇 조작 성능을 높였습니다.
핵심 결론
- 태스크 — 실제 로봇 조작 및 시뮬레이션 벤치마크에서 다양한 환경에 걸쳐 강력한 성능.
- 개선 — 재구성 중심 토크나이저 대비 ablation에서 의미적 시각-행동 토크나이저의 우위 확인.
방법
- 토크나이저 — 시각 입력을 정렬된 시각 토큰과 잠재 행동 토큰으로 매핑하는 표현 시각-행동 토크나이저를 학습.
- 공동 예측 — 언어 명령 하에 미래 시각 상태와 그 연결을 위한 잠재 행동을 공동 예측하도록 WAM 사전학습.
- 이후 실제 로봇 궤적으로 adaptation하여 폐루프 조작 수행.
한계·조건
- 데이터 — 실험은 특정 로봇 환경과 태스크에 국한되며, 일반화 범위는 추가 검증 필요.
- 코드 — GitHub 공개 예정이나 현재 시점에서는 미공개.
편집자 한 줄
재구성 대신 표현 중심 접근이 로봇 조작에 더 적합할 수 있다는 직관을 잘 실험으로 보여준 점이 인상적입니다.
- #world-action-model
- #robot-manipulation
- #tokenizer
- #fudan-university
Fudan University