Papers·1개월 전

VLA 모델의 의미론적 행동 예측 한계를 진단하는 RoboSemanticBench

Zhongguancun Academy 연구진이 VLA 모델이 복잡한 지시 의미를 이해하고 물리적 대상을 선택하는 능력을 평가하는 벤치마크 RoboSemanticBench(RSB)를 공개했습니다. 기존 VLA 모델은 후보 블록을 집는 동작은 학습하지만, 수학·상식 문제에서 정답 블록을 선택하는 정확도는 무작위 수준에 그쳐, 백본의 의미 이해와 행동 예측 사이에 지속적인 격차가 있음을 보여줍니다. 단순한 시각·지시 단축 경로로 풀리지 않는 태스크 설계가 특징입니다.

VLA 모델의 의미론적 행동 예측 능력을 진단하는 새로운 벤치마크 RoboSemanticBench(RSB)가 공개되었습니다.

핵심 결론

벤치 — RSB는 VLA 모델이 복잡한 지시 의미를 이해하고 올바른 물리적 대상을 선택하는지 평가합니다.
결과 — 대표 VLA 모델들은 후보 블록을 집는 동작은 성공하지만, 정답 블록 선택 정확도는 무작위 수준에 머물렀습니다.

방법

각 에피소드에서 로봇은 객관식 수학 또는 일반 상식 문제를 받고, 네 개 또는 열 개의 답안 블록 중 정답 블록을 집어야 합니다.
구성 — RSB는 통제된 산술, 초등 수학 이해, 상식·사실 이해의 세 가지 난이도로 구성됩니다.
기존 벤치마크와 달리 시각·지시 단축 경로로 풀리지 않도록 설계되어, 의미론적 접지 능력을 직접 진단합니다.

한계·조건

환경 — 시뮬레이션 환경에서 평가되었으며, 실제 로봇 실험 결과는 아직 보고되지 않았습니다.
범위 — 평가된 모델은 공개 VLA 모델 일부에 한정되며, 추가 모델 실험이 필요합니다.
코드 — 벤치마크 코드와 데이터는 공개 예정입니다.

편집자 한 줄

백본의 의미 이해 능력과 행동 예측 사이의 격차를 정량화한 점이 흥미롭습니다. 단순한 모방 학습의 한계를 드러내는 좋은 진단 도구가 될 듯합니다.

#vla
#embodied-ai
#benchmark
#semantic-grounding
#zhongguancun-academy

Zhongguancun Academy

원문 보기 →

VLA 모델의 의미론적 행동 예측 한계를 진단하는 RoboSemanticBench

핵심 결론

방법

한계·조건

Comments