Papers·4일 전
TBD-VLA: 블록 확산으로 시간적 일관성과 추론 속도를 동시에 잡은 이산 VLA

TBD-VLA는 이산 VLA의 느린 추론과 시간적 구조 무시 문제를 해결하기 위해, 액션 시퀀스를 시간 블록으로 나누고 블록 내에서는 마스크 확산, 블록 간에는 자기회귀 생성을 결합한 프레임워크입니다. 시뮬레이션과 실제 조작 태스크에서 기존 VLA를 크게 능가하며, 실시간 청킹과 같은 비동기 실행도 지원합니다.
이산 VLA의 느린 추론과 시간적 구조 부재를 해결하기 위해 블록 확산을 도입한 TBD-VLA가 공개되었습니다.
핵심 결론
- 성능 — 시뮬레이션 및 실제 조작 태스크에서 기존 VLA 대비 유의미한 성능 향상.
- 속도 — 블록 내 병렬 디코딩으로 추론 지연 시간을 크게 단축.
방법
- 블록 확산 — 액션 시퀀스를 시간 블록으로 분할하고, 블록 내에서는 마스크된 이산 확산을 적용하여 병렬로 토큰을 생성.
- 블록 간 자기회귀 — 블록 간에는 순차적으로 조건부 생성하여 시간적 일관성을 유지.
- 비동기 실행 — 시간적 인페인팅을 통해 실시간 청킹과 같은 비동기 액션 실행이 가능.
한계·조건
- 환경 — 시뮬레이션과 실제 로봇 환경에서 검증되었으나, 다양한 로봇 플랫폼에 대한 일반화는 추가 실험이 필요.
- 코드 — 프로젝트 페이지에서 추가 정보 제공 예정.
편집자 한 줄
블록 확산이라는 아이디어가 간단하면서도 효과적이라, 향후 VLA 디자인에 자주 참조될 만합니다.
- #vla
- #diffusion
- #robotics
- #action-generation
Sung-Wook Lee