Papers·어제

ByteDance Seed, World Value Model 공개 — 세계 모델 기반 가치 추정으로 로봇 정책 학습 성능 향상

ByteDance Seed 팀이 세계 모델(World Model)을 가치 함수에 결합한 World Value Model(WVM)을 발표했습니다. 기존 VLM 기반 가치 모델은 시간적 추론이 부족했지만, WVM은 세계 모델의 미래 계획 능력을 활용해 서브고트(suboptimal) 데이터를 포함한 혼합 품질 데이터에서 정책 학습을 개선합니다. VOC(Value-Order Correlation) 벤치마크에서 SOTA를 달성했고, 새로 제안한 Suboptimal-Value-Bench에서도 우수한 성능을 유지했습니다. 단, 800개 궤적의 인간 주석 데이터셋과 8x A100 환경에서 학습된 점은 참고할 만합니다.

ByteDance Seed 팀이 세계 모델을 가치 함수에 통합한 World Value Model(WVM)을 제안했습니다. 기존 VLM 기반 가치 모델의 시간 추론 한계를 극복해 혼합 품질 데이터에서 정책 학습을 개선합니다.

핵심 결론

벤치 — VOC(Value-Order Correlation) 벤치마크에서 SOTA 달성. Suboptimal-Value-Bench(800개 서브고트 궤적)에서도 SOTA 유지.
정책 학습 — 시뮬레이션 및 실제 로봇 조작 태스크에서 다양한 정책 추출 방식에 대해 성능 향상 확인.

방법

핵심 아이디어 — 세계 모델의 시간적 추론 및 미래 계획 능력을 가치 추정에 활용. 기존 VLM 백본 대신 세계 모델을 가치 함수의 기반으로 사용.
구조 — WVM은 세계 모델 인코더 위에 가치 헤드를 얹은 형태로, 과거 컨텍스트와 미래 예측을 모두 반영한 가치를 출력.

한계·조건

데이터 — Suboptimal-Value-Bench는 800개 궤적으로 규모가 작고, 인간 주석이 포함되어 재현에 비용이 듭니다.
환경 — 학습에 8x A100 GPU가 사용되었으며, 단일 GPU 환경에서의 효율성은 보고되지 않았습니다.
코드 — 현재 코드 및 모델 가중치는 공개되지 않았습니다.

편집자 한 줄

세계 모델을 가치 함수에 접목한 발상은 깔끔하지만, 서브고트 데이터의 주석 비용과 재현성은 후속 연구에서 해결해야 할 과제로 보입니다.

#world-model
#value-model
#robotics
#bytedance

ByteDance Seed

원문 보기 →

ByteDance Seed, World Value Model 공개 — 세계 모델 기반 가치 추정으로 로봇 정책 학습 성능 향상

핵심 결론

방법

한계·조건

Comments