Papers·6일 전
AI 안경용 장기 기억 벤치마크 SuperMemory-VQA — 52.9시간 에고센트릭 영상, 6종 기억 태스크

오하이오 주립대 팀이 AI 안경 기반 개인 비서의 장기 기억 능력을 평가하는 SuperMemory-VQA 데이터셋을 공개했습니다. 52.9시간의 일상 활동 RGB·오디오·시선·IMU·SLAM 데이터로 4,853개의 객관식 QA를 구축했으며, 객체·위치·의도·장면·타임라인·대화·문맥 검색 등 6개 기억 태스크를 포함합니다. 기존 에고센트릭 데이터셋이 단기 행동 인식에 치우친 반면, 이 데이터셋은 현실적인 인간 기억 공백을 메우는 데 초점을 맞췄습니다. 벤치마크 결과, 현존하는 에이전트 프레임워크와 LLM은 신뢰할 만한 수준에 한참 못 미쳐, 새로운 기억 아키텍처가 필요함을 시사합니다.
AI 안경이 개인 기억 비서로 기능하려면 장기 비디오 스트림에서 인간의 기억 공백을 메우는 능력이 필요하지만, 기존 데이터셋은 단기 행동 인식에 그쳤습니다.
핵심 결론
- 데이터셋 — 52.9시간 일상 활동, AI 안경으로 촬영한 RGB·오디오·시선·IMU·SLAM 동기화 데이터.
- QA — 4,853개 객관식 문항, 6개 기억 태스크(객체·위치·의도·장면·타임라인·대화·문맥 검색).
- 평가 — 현존 LLM 및 에이전트 프레임워크는 신뢰도 낮음 — '답변 불가' 옵션으로 환각 내성도 측정.
방법
- 수집 — 참가자가 AI 안경을 착용하고 일상 활동(요리, 쇼핑, 대화 등) 수행, 52.9시간 녹화.
- 주석 — 인간 검증 파이프라인으로 각 질문에 정답과 '답변 불가' 옵션을 포함한 객관식 QA 구성.
- 태스크 — 객체·위치 기억, 의도 회상, 장면 재인, 타임라인 재구성, 대화 기억, 문맥 검색 등 6종.
한계·조건
- 범위 — 데이터셋은 52.9시간으로 장기(long-horizon)지만, 수개월 단위 초장기 기억은 미포함.
- 환경 — 실내 일상 활동에 집중, 야외·다양한 사회적 맥락은 제한적.
- 공개 — 데이터셋과 코드는 공개 예정 — 현재는 논문과 부록만 열람 가능.
편집자 한 줄
기억 태스크를 세분화한 점과 '답변 불가' 옵션으로 환각 내성을 측정한 설계가 인상적입니다. 다만 52.9시간이면 일주일치 영상에도 못 미치니, 더 긴 기간으로 확장된 버전이 나오면 좋겠네요.
- #egocentric-video
- #memory
- #vqa
- #ai-glasses
- #benchmark
The Ohio State University