Papers·1개월 전

MemDreamer: 에이전트 기반 계층 그래프 메모리로 1시간 영상 이해 — 전체 토큰의 2%만으로 12.5점 정확도 향상

inclusionAI 팀이 장시간 비디오 이해를 위해 인지와 추론을 분리한 에이전트 프레임워크 MemDreamer를 제안했습니다. 비디오를 점진적으로 스트리밍하며 시공간·인과 관계를 담은 계층 그래프 메모리를 구축하고, 추론 시 Observation-Reason-Action 루프로 필요한 노드만 탐색합니다. 네 개 벤치마크에서 SOTA를 달성했으며, 전체 컨텍스트 대비 2%의 토큰만으로 12.5점의 절대 정확도 향상을 보였고, 인간 전문가와의 격차를 3.7점까지 좁혔습니다. 단, 실험은 특정 VLM 백본에 의존적이며, 에이전트 루프의 지연 시간이 추가로 발생합니다.

1시간짜리 비디오를 처리할 때 발생하는 토큰 폭발과 주의력 분산 문제를 해결하기 위해, 인지와 추론을 분리한 에이전트 프레임워크 MemDreamer가 등장했습니다.

핵심 결론

벤치마크 — EgoSchema, Next-QA, ActivityNet-QA, Video-MME 네 개 벤치마크에서 SOTA 기록.
정확도 — 전체 컨텍스트 대비 2%의 토큰만 사용하면서 12.5점 절대 정확도 향상, 인간 전문가와 3.7점 차이.
상관관계 — VLM의 논리 추론 능력과 장시간 비디오 이해 성능 간 강한 양의 선형 상관관계 발견.

방법

계층 그래프 메모리 — 비디오를 점진적으로 스트리밍하며 상위-중위-하위 3계층 그래프를 구축. 하위 그래프는 시공간·인과 관계를 포함.
에이전트 추론 — Observation-Reason-Action 루프를 통해 계층을 탐색하고, 필요한 노드와 엣지만 검색. 툴 증강 검색 사용.
플러그 앤 플레이 — 기존 VLM 위에 얹는 방식으로, 백본 모델 변경 없이 적용 가능.

한계·조건

백본 의존성 — 실험은 특정 VLM(예: LLaVA-NeXT) 기반으로 수행되어, 다른 백본에서의 일반화는 추가 검증 필요.
지연 시간 — 에이전트 루프로 인해 추론 시 추가 지연이 발생하며, 실시간 응용에는 한계가 있을 수 있음.
코드 공개 — 현재 논문과 함께 코드는 공개되지 않았으며, 재현성 확인이 어려운 상태.

편집자 한 줄

에이전트 기반 접근이 장시간 비디오 이해의 새로운 패러다임이 될 가능성을 보여주지만, 실제 배포를 위해서는 지연 시간과 백본 일반화 문제를 해결해야 할 만합니다.

#vision-language
#long-video
#hierarchical-graph-memory
#agentic-retrieval
#inclusionai

inclusionAI

원문 보기 →

MemDreamer: 에이전트 기반 계층 그래프 메모리로 1시간 영상 이해 — 전체 토큰의 2%만으로 12.5점 정확도 향상

핵심 결론

방법

한계·조건

Comments