Papers·1개월 전

VisualClaw: 비디오 QA 비용 98% 절감하는 자기진화 멀티모달 에이전트

VisualClaw는 하이브리드 인코딩과 스킬 진화로 비디오 QA 비용을 98% 줄이고 정확도는 최대 15.8% 향상시킨 자기진화 멀티모달 에이전트입니다. Cascade gate로 비정보 프레임을 필터링하고, 실패에서 학습해 스킬 뱅크를 업데이트합니다. 200개 시나리오의 VisualClawArena 벤치마크에서도 비용 9.5% 절감과 정확도 향상을 확인했습니다.

비전 언어 모델을 실제 배포할 때 비용·지연·정적 에이전트·벤치마크 부재 등 세 가지 격차를 해결한 VisualClaw가 공개됐습니다.

핵심 결론

비용 절감 — 4개 비디오 QA 벤치마크에서 전체 프레임 업로드 대비 질문당 API 비용 평균 98% 감소, 균일 8프레임 대비 25.9% 감소.
정확도 — Gemini 3 Flash 기반 EgoSchema에서 평균 +3.85%, 최대 +15.80% 향상.
에이전트 벤치 — 자체 구축한 VisualClawArena(200개 시나리오)에서 GPT-5.5 기반 Codex는 +2.9%, Claude Sonnet 4.6 기반 Claude Code는 +3.2% 정확도 향상, 비용 9.5% 절감.

방법

하이브리드 인코딩 — Cascade gate로 덜 유용한 스트리밍 프레임을 필터링하고, 텍스트 스킬 뱅크를 hot/cold top-k 주입으로 압축해 배포 비용을 낮춥니다.
스킬 진화 — 실패 사례에서 검색된 메모리를 조건으로 진화기가 직접 컨텍스트나 가이드 증거로 활용해 스킬 뱅크를 업데이트, 이후 질문에 활용합니다.
에지 적용 — 1시간 스트리밍 세션을 약 3,600회 API 업로드에서 5~20회로 줄여 개인화 비서로 적합합니다.

한계·조건

벤치마크 — VisualClawArena는 200개 시나리오로 구성되었으며, 다섯 단계 파이프라인으로 구축됐습니다. 비디오 증거, 문서, 동적 업데이트, 실행 가능 검사를 포함합니다.
재현성 — 코드 및 데이터 공개 여부는 명시되지 않았습니다.

편집자 한 줄

비용 절감 폭이 인상적이지만, 200개 시나리오 벤치마크의 일반화 가능성은 추가 검증이 필요해 보입니다.

#vision-language-model
#multimodal-agent
#video-qa
#self-evolution
#cost-reduction

Haoqin Tu

원문 보기 →

VisualClaw: 비디오 QA 비용 98% 절감하는 자기진화 멀티모달 에이전트

핵심 결론

방법

한계·조건

Comments