Papers·1개월 전

GridProbe: 비디오 이해 VLM의 프레임 선택을 후방 탐침으로 효율화 — Video-MME-v2에서 1.6pp 차이로 3.36배 연산 감소

KAUST 연구팀이 긴 비디오 이해에서 VLM의 단일 순방향 전파 병목을 해결하는 GridProbe를 제안했습니다. 기존의 훈련 없는 프레임 선택기는 대조 사전학습에 의존해 추론 중심 질문에 취약한 반면, GridProbe는 동결된 VLM의 자체 추론을 활용해 답변 공간에서 점수를 매기고 질문 관련 프레임을 적응적으로 선택합니다. K×K 그리드 위에서 행·열 탐침을 통해 중요도 맵을 만들고, Shape-Adaptive Selection으로 질문별 프레임 수를 동적으로 조정합니다. Video-MME-v2에서 기준선 대비 1.6pp 정확도 차이로 3.36배 TFLOPs를 줄였으며, 작은 선택기(2B)와 강한 QA(4B/8B)를 분리해 사용할 때 추가 재훈련 없이 평균 4.0pp 향상과 0.52배 연산 감소를 달성했습니다. 단, 이 방식은 탐침 과정에서 추가적인 추론 비용이 발생하며, 중요도 맵의 해석 가능성은 향후 진단 및 증류에 활용될 여지가 있습니다.

#vlm
#video-understanding
#frame-selection
#kaust
#efficient-inference

King Abdullah University of Science and Technology

원문 보기 →

GridProbe: 비디오 이해 VLM의 프레임 선택을 후방 탐침으로 효율화 — Video-MME-v2에서 1.6pp 차이로 3.36배 연산 감소

Comments