Papers·1주 전

V-RAGBench + CARVE: 비디오 RAG 평가 벤치마크와 청크 적응형 재순위화 방법

비디오 RAG(VideoRAG)의 두 가지 문제점 — 기존 벤치마크가 비디오 없이도 쿼리에 답할 수 있어 검색 오류를 가리고, 기존 방법이 쿼리당 단일 모달리티-세분성 설정을 적용해 청크 수준 변동성을 무시함 — 을 해결하기 위해 V-RAGBench(쿼리-증거 청크-답변 트리플릿)와 CARVE(병렬 검색기 + 청크 적응형 재순위화)를 제안합니다. CARVE는 8개 최신 VideoRAG 기준선을 능가하며, 청크마다 최적 설정을 선택해 생성기에 전달합니다.

비디오 RAG가 텍스트를 넘어 긴 자아 중심 비디오로 확장되면서, 쿼리 관련 청크를 여러 모달리티와 시간적 세분성에서 선택해야 하는 과제가 대두되었습니다.

핵심 결론

벤치마크 — V-RAGBench는 faithful하고 분리된 검색-생성 평가를 가능하게 하는 쿼리-증거 청크-답변 트리플릿을 제공합니다.
성능 — CARVE는 8개 최신 VideoRAG 기준선보다 높은 성능을 달성했으며, 청크 수준에서 여러 설정을 혼합하는 동작이 쿼리 수준 방법으로는 불가능합니다.

방법

병렬 검색 — 여러 모달리티-세분성 설정에 대해 병렬 검색기를 실행합니다.
청크 적응형 재순위화 — 각 청크에 대해 최적 설정을 식별하는 chunk-adaptive reranking을 도입합니다.
인터리브 증거 — 청크별로 선택된 설정이 검색과 생성 단계 모두에 전파되어, 서로 다른 설정의 청크가 혼합된 증거 형태를 생성합니다.

한계·조건

데이터셋 — V-RAGBench는 특정 비디오 도메인(자아 중심 비디오)에 초점을 맞추고 있어 일반화 가능성은 추가 검증이 필요합니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

청크 수준에서 최적 설정을 동적으로 선택하는 아이디어는 직관적이면서도 효과적이어서, 향후 멀티모달 RAG 연구에 자주 인용될 만합니다.

#videorag
#benchmark
#retrieval-augmented-generation
#carve
#v-ragbench

Data Intelligence System Lab

원문 보기 →

V-RAGBench + CARVE: 비디오 RAG 평가 벤치마크와 청크 적응형 재순위화 방법

핵심 결론

방법

한계·조건

Comments