Papers·1개월 전

PhysBrain 1.0: 인간 에고센트릭 비디오로 물리 상식 학습 — VLA 정책에 전이

DeepCybo 팀이 인간 에고센트릭 비디오에서 물리 상식을 추출해 VLM을 학습시키고, 이를 VLA 정책에 전이하는 PhysBrain 1.0을 공개했습니다. 장면 요소, 공간 역학, 동작 실행, 깊이 관계를 QA 쌍으로 변환한 후, 능력 보존 및 언어 민감 적응 설계를 통해 로봇 정책에 주입합니다. ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa 등에서 SOTA를 기록했으며, 특히 SimplerEnv에서 도메인 외 일반화가 두드러졌습니다. 다만, 비디오 데이터의 규모와 다양성에 성능이 민감할 가능성이 있습니다.

#vision-language-action
#physical-commonsense
#egocentric-video
#deepcybo

DeepCybo

원문 보기 →

PhysBrain 1.0: 인간 에고센트릭 비디오로 물리 상식 학습 — VLA 정책에 전이

Comments