Papers·어제
MemEye: 멀티모달 장기 에이전트 메모리 평가 — 13개 방법, 4개 VLM 백본에서 픽셀 수준 증거 보존 실패

MemEye는 에이전트가 시각적 증거를 얼마나 잘 보존하고 추론하는지 평가하는 프레임워크입니다. 장면 수준에서 픽셀 수준까지 증거 세분성과 단일 증거에서 진화적 합성까지 사용 방식을 측정하며, 8개 생활 시나리오 태스크로 구성된 벤치마크를 통해 13개 메모리 방법과 4개 VLM 백본을 평가한 결과, 현재 아키텍처는 미세한 시각적 디테일 보존과 시간적 상태 변화 추론에 여전히 취약함을 보여줍니다. 특히 ablation 검증 게이트를 통해 답변 가능성, 지름길 저항, 시각적 필요성, 추론 구조를 분석한 점이 특징입니다.
- #multimodal-memory
- #agent
- #benchmark
- #vlm
- #evaluation
Minghao Guo