Papers·1주 전
DRIFT: 사전학습 VLM에 연속 출력 디코딩 추가 — grounding·로봇 제어에서 일관된 개선

University of Wisconsin-Madison 팀이 사전학습된 VLM에 연속 출력(시간 경계, 로봇 제어 등)을 가능하게 하는 DRIFT 프레임워크를 제안했습니다. DRIFT는 coarse 예측기와 flow matching 기반의 생성적 정제 모듈을 결합해 residual 분포를 학습하며, visual grounding과 로봇 제어 태스크에서 기존 회귀·생성 기반 솔루션보다 일관되게 높은 성능을 보였습니다. 단, 실험은 특정 VLM 계열(MLLM, VLA, WAM)에 국한되어 있어 모든 VLM에 일반화된다고 보긴 어렵습니다.
VLM의 이산 토큰 디코딩 한계를 극복하기 위해 연속 출력을 위한 DRIFT 프레임워크가 제안되었습니다.
핵심 결론
- 태스크 — Visual grounding(시간 경계 localization)과 로봇 제어(action prediction)에서 평가.
- 성능 — 회귀 기반 및 생성 기반 baseline 대비 모든 태스크에서 일관된 성능 향상.
방법
- 구조 — Base predictor가 coarse 예측을 내고, flow matching 기반 refinement 모듈이 residual을 반복적으로 정제.
- 직관 — 전역 분포 대신 강력한 prior 주변의 localized residual 분포를 학습해 최적화를 단순화.
- 사전학습된 VLM의 가중치는 고정하거나 LoRA로 미세조정 가능.
한계·조건
- 범위 — MLLM, VLA, WAM 계열에서만 검증되었으며, 다른 아키텍처에서의 일반화는 추가 실험 필요.
- 코드 — 논문에 코드 공개 여부 명시되지 않음.
편집자 한 줄
Residual flow matching 아이디어는 간결하면서도 효과적이어서, 연속 출력이 필요한 다양한 VLM 응용으로 확장될 가능성이 있어 보입니다.
- #vlm
- #continuous-decoding
- #flow-matching
- #grounding
- #robotics
University of Wisconsin - Madison