Papers·1개월 전

NVIDIA, VLM 기반 로봇 물리 오케스트레이션 VoLoAgent — 오픈어휘 장기 태스크 성공률 2배 향상

NVIDIA 연구팀이 VLM이 VLA/WAM을 중단 가능한 도구로 조종하는 물리 오케스트레이션 프레임워크 VoLoAgent를 공개했습니다. RoboVoLo 벤치마크에서 단일 VLA/VLM 대비 태스크 성공률을 2배 이상 높였으며, 실제 로봇 실험으로 검증했습니다. 단, VLM 추론 지연이 물리적 실시간성에 미치는 영향은 아직 분석되지 않았습니다.

NVIDIA가 VLM이 로봇의 다양한 능력을 중단 가능한 도구로 조종하며 장기 태스크를 수행하는 VoLoAgent를 제안했습니다.

핵심 결론

태스크 — 오픈어휘 장기 조작 태스크에서 기존 단일 VLA/VLM 대비 성공률 2배 이상 향상.
벤치마크 — RoboVoLo: 상식, 상태 추적, 복합 참조, 세계 지식 등 4개 카테고리로 실패 모드 진단 가능.
검증 — 실제 로봇 실험에서도 동일한 경향 확인.

방법

물리 오케스트레이션 — VLM이 VLA/WAM을 중간에 중단 가능한 도구로 호출하며, 물리적 시간 제약을 고려해 계획·실행·모니터링·복구를 순환.
도구 구성 — 비전 모델, 동작 프리미티브, VLA/WAM을 VLM이 선택적으로 호출.
기존 AI 에이전트와 달리, 물리 세계는 추론 중 멈추지 않으므로 타이밍이 중요하다는 점을 강조.

한계·조건

실시간성 — VLM 추론 지연이 물리적 실시간 요구에 미치는 영향은 아직 정량 분석되지 않음.
코드 — 프로젝트 페이지는 공개되었으나, 코드 및 모델 가중치 공개 여부는 미정.
벤치 규모 — RoboVoLo는 시뮬레이션 기반이며, 실제 환경 일반화는 추가 검증 필요.

편집자 한 줄

VLM이 VLA를 '중단 가능한 도구'로 다루는 설계는 기존 end-to-end 정책 대비 실패 복구에 유연함을 주는 흥미로운 포인트입니다.

#vlm
#robotics
#orchestration
#nvidia
#long-horizon

NVIDIA

원문 보기 →

NVIDIA, VLM 기반 로봇 물리 오케스트레이션 VoLoAgent — 오픈어휘 장기 태스크 성공률 2배 향상

핵심 결론

방법

한계·조건

Comments