Papers·1개월 전

Boston University, 예측 부호화 기반 Swift Sampling — 긴 영상에서 정보량 높은 프레임만 골라 정확도 +12.5%p

Boston University 팀이 인간 뇌의 예측 부호화(predictive coding)에서 영감을 받아, 긴 영상에서 정보량이 높은 프레임을 자동으로 선별하는 Swift Sampling을 제안했습니다. 비디오를 잠재 공간에서의 미분 가능한 궤적으로 모델링하고, Taylor 전개로 예측된 경로와 실제 프레임 간의 차이가 큰 순간을 '시간적 서프라이즈'로 정의해 샘플링합니다. 사전 훈련이나 하이퍼파라미터 튜닝이 필요 없으며, 추가 연산 비용이 baseline 대비 0.02배에 불과해 기존 방법보다 30배 가벼운 점이 특징입니다. 3개의 긴 영상 QA 벤치마크와 10개의 하위 태스크에서 균일 샘플링 및 기존 query-agnostic 방법을 능가했고, 특히 적은 프레임 예산에서 최대 12.5%p 정확도 향상을 보였습니다.

#video-understanding
#frame-selection
#predictive-coding
#long-video
#boston-university

Boston University

원문 보기 →

Boston University, 예측 부호화 기반 Swift Sampling — 긴 영상에서 정보량 높은 프레임만 골라 정확도 +12.5%p

Comments