Papers·1개월 전

MEMLENS: 멀티모달 멀티세션 대화에서 메모리 능력 평가 — 27개 LVLM과 7개 메모리 에이전트 비교

NVIDIA 연구진이 멀티모달 멀티세션 대화에서 메모리 능력을 평가하는 벤치마크 MEMLENS를 공개했습니다. 789개 질문으로 정보 추출, 다중 세션 추론, 시간 추론, 지식 업데이트, 답변 거부 등 5가지 메모리 능력을 32K~256K 토큰 컨텍스트 길이에서 측정합니다. 이미지 제거 실험에서 시각 증거가 필요한 질문(80.4%)에 대해 최신 LVLM의 정확도가 2% 미만으로 떨어져 시각적 근거가 필수적임을 확인했습니다. 27개 LVLM과 7개 메모리 에이전트를 평가한 결과, long-context LVLM은 짧은 컨텍스트에서 높은 정확도를 보이지만 대화가 길어질수록 성능이 저하되는 반면, 메모리 에이전트는 길이에 안정적이지만 저장 시 압축으로 인해 시각적 충실도가 떨어집니다. 다중 세션 추론은 대부분의 시스템에서 30% 미만으로, 두 접근법 모두 단독으로는 과제를 해결하지 못해 long-context attention과 구조화된 멀티모달 검색을 결합한 하이브리드 아키텍처가 필요함을 시사합니다.

#memory
#multimodal
#benchmark
#nvidia

NVIDIA

원문 보기 →

MEMLENS: 멀티모달 멀티세션 대화에서 메모리 능력 평가 — 27개 LVLM과 7개 메모리 에이전트 비교

Comments