Papers·1개월 전

WEAVER: 다중 뷰 월드 모델로 로봇 조작 정책 평가·개선·계획 한 번에 — 실제 성공률 38% 향상

Arnav Kumar Jain 팀이 제안한 WEAVER는 flow-matching 손실로 미래 잠재 변수와 보상을 예측하는 다중 뷰 월드 모델로, 로봇 조작에서 정책 평가(실제 성공률과 ρ=0.870 상관), 정책 개선(π_0.5 기반 실제 성공률 38% 향상), 테스트 타임 계획(실제 성공률 14% 향상, 속도 5~10배) 세 가지를 모두 달성했습니다. 핵심은 장기 역학 작업에 필요한 아키텍처·메모리·예측 목표 설계를 체계적으로 정리한 점입니다. 단, 학습 및 추론에 상당한 compute가 필요할 것으로 보이며, 코드와 모델은 공개 예정입니다.

로봇 조작을 위한 월드 모델의 세 가지 요구사항 — 충실도, 일관성, 효율성 — 을 동시에 만족하는 WEAVER 아키텍처가 공개되었습니다.

핵심 결론

정책 평가 — 실제 성공률과 ρ=0.870 상관관계를 보여, 시뮬레이터 기반 평가의 신뢰도를 크게 높였습니다.
정책 개선 — π_0.5 로봇 파운데이션 모델 위에서 실제 성공률을 38% 향상시켰습니다.
테스트 타임 계획 — 기존 WM 대비 5~10배 빠른 속도로 실제 성공률 14% 향상을 달성했습니다.

방법

다중 뷰 — 여러 카메라 뷰를 입력받아 미래 latent와 reward를 flow-matching 손실로 예측합니다.
아키텍처 — 장기 동적 조작 작업을 위해 메모리 메커니즘과 예측 목표를 체계적으로 설계한 점이 핵심입니다.
학습 — 실제 로봇 데이터로 학습되며, OOD 시나리오에서도 기존 WM보다 우수한 성능을 보입니다.

한계·조건

리소스 — 상당한 compute 자원이 필요할 것으로 예상되며, 구체적인 GPU 시간은 공개되지 않았습니다.
범위 — 평가는 주로 조작 태스크에 한정되어 있으며, 이동 로봇 등 다른 도메인으로의 일반화는 검증되지 않았습니다.
공개 — 코드, 모델, 비디오는 GitHub에서 공개 예정입니다.

편집자 한 줄

WM의 세 가지 축을 동시에 개선한 점은 인상적이지만, 실제 로봇 하드웨어에서의 추가 검증이 더 필요해 보입니다.

#world-model
#robotics
#flow-matching
#manipulation
#weaver

Arnav Kumar Jain

원문 보기 →

WEAVER: 다중 뷰 월드 모델로 로봇 조작 정책 평가·개선·계획 한 번에 — 실제 성공률 38% 향상

핵심 결론

방법

한계·조건

Comments