← Back to feed
Papers·5일 전

VISUALTHINK-VLA: 시각 중간 추론으로 VLA 정책 지연 시간 22.8배 단축

VISUALTHINK-VLA: 시각 중간 추론으로 VLA 정책 지연 시간 22.8배 단축

Zhejiang University 연구팀이 VLA 정책에 시각 중간 추론을 도입한 VISUALTHINK-VLA를 공개했습니다. 텍스트 chain-of-thought 대신 시각적 증거 토큰을 사용해 추론 지연 시간을 초 단위에서 0.367초로 줄였으며, BridgeData V2에서 ECoT 대비 22.8배 속도 향상을 달성했습니다. 754.7k 규모의 VisualEvidence-Set을 구축해 라우팅 감독과 반사실 충실도 테스트를 제공합니다.

Zhejiang University 연구팀이 시각 중간 추론을 통해 VLA 정책의 지연 시간을 획기적으로 단축한 VISUALTHINK-VLA를 제안했습니다.

핵심 결론

  • 성능여러 벤치마크와 실제 로봇 평가에서 최고 성공률을 기록했으며, BridgeData V2에서 step latency를 8.377초(ECoT)에서 0.367초로 22.8배 단축.
  • 추론텍스트 CoT 대신 시각적 증거 토큰을 사용해 공간 정밀도를 유지하면서 디코딩 오버헤드를 제거.

방법

  • 시각 증거 인터페이스행동 예측을 안내하는 컴팩트한 시각적 증거 인터페이스를 도입해 텍스트 디코딩 없이 공간 정보를 보존.
  • 선택적 라우팅시각 증거 토큰을 학습하기 위한 선택적 라우팅 메커니즘을 적용해 저지연 추론과 고용량 전문화를 동시에 달성.
  • 데이터셋VisualEvidence-Agent를 통해 754.7k VLA 명령어로 구성된 VisualEvidence-Set을 구축, 라우팅 감독 및 반사실 충실도 테스트에 활용.

한계·조건

  • 환경실험은 특정 로봇 플랫폼과 시뮬레이터에 국한될 가능성이 있으며, 다양한 환경에서의 일반화는 추가 검증 필요.
  • 코드코드 및 데이터셋 공개 여부는 논문에서 명시되지 않음.

편집자 한 줄

시각적 중간 추론이 텍스트 CoT의 지연 문제를 해결한 점은 실용적이지만, 시각 증거의 해석 가능성과 일반화 성능은 추가 연구가 필요해 보입니다.

  • #vla
  • #visual-reasoning
  • #zhejiang-university
  • #robotics
Zhejiang university
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —