Papers·5일 전
VISUALTHINK-VLA: 시각 중간 추론으로 VLA 정책 지연 시간 22.8배 단축

Zhejiang University 연구팀이 VLA 정책에 시각 중간 추론을 도입한 VISUALTHINK-VLA를 공개했습니다. 텍스트 chain-of-thought 대신 시각적 증거 토큰을 사용해 추론 지연 시간을 초 단위에서 0.367초로 줄였으며, BridgeData V2에서 ECoT 대비 22.8배 속도 향상을 달성했습니다. 754.7k 규모의 VisualEvidence-Set을 구축해 라우팅 감독과 반사실 충실도 테스트를 제공합니다.
Zhejiang University 연구팀이 시각 중간 추론을 통해 VLA 정책의 지연 시간을 획기적으로 단축한 VISUALTHINK-VLA를 제안했습니다.
핵심 결론
- 성능 — 여러 벤치마크와 실제 로봇 평가에서 최고 성공률을 기록했으며, BridgeData V2에서 step latency를 8.377초(ECoT)에서 0.367초로 22.8배 단축.
- 추론 — 텍스트 CoT 대신 시각적 증거 토큰을 사용해 공간 정밀도를 유지하면서 디코딩 오버헤드를 제거.
방법
- 시각 증거 인터페이스 — 행동 예측을 안내하는 컴팩트한 시각적 증거 인터페이스를 도입해 텍스트 디코딩 없이 공간 정보를 보존.
- 선택적 라우팅 — 시각 증거 토큰을 학습하기 위한 선택적 라우팅 메커니즘을 적용해 저지연 추론과 고용량 전문화를 동시에 달성.
- 데이터셋 — VisualEvidence-Agent를 통해 754.7k VLA 명령어로 구성된 VisualEvidence-Set을 구축, 라우팅 감독 및 반사실 충실도 테스트에 활용.
한계·조건
- 환경 — 실험은 특정 로봇 플랫폼과 시뮬레이터에 국한될 가능성이 있으며, 다양한 환경에서의 일반화는 추가 검증 필요.
- 코드 — 코드 및 데이터셋 공개 여부는 논문에서 명시되지 않음.
편집자 한 줄
시각적 중간 추론이 텍스트 CoT의 지연 문제를 해결한 점은 실용적이지만, 시각 증거의 해석 가능성과 일반화 성능은 추가 연구가 필요해 보입니다.
- #vla
- #visual-reasoning
- #zhejiang-university
- #robotics
Zhejiang university