Papers·5일 전
GateMem: 다중 주체 공유 메모리 에이전트 벤치마크 — 유틸리티·접근 제어·망각 모두 평가

Zhe Ren 팀이 병원·사무실·학교·가정 등 다중 사용자가 공유 메모리를 사용하는 LLM 에이전트 환경을 평가하는 벤치마크 GateMem을 공개했습니다. 기존 단일 사용자 메모리 벤치마크와 달리, 공유 메모리에서의 유틸리티(장기 요청·상태 업데이트), 접근 제어(컨텍스트 기반 권한), 능동적 망각(삭제 요청 후 정보 누출)을 종합 측정합니다. 다양한 백본 모델 실험 결과, 긴 컨텍스트 프롬프팅이 가장 높은 거버넌스 점수를 보였지만 토큰 비용이 크고, 검색 기반·외부 메모리 방식은 비용을 줄이나 권한 없는 정보나 삭제된 정보를 여전히 유출하는 등 현재 메모리 에이전트는 신뢰할 수 있는 공유 배포에 한참 미치지 못합니다.
다중 사용자가 공유 메모리를 사용하는 LLM 에이전트의 유틸리티·접근 제어·망각을 종합 평가하는 벤치마크 GateMem이 공개되었습니다.
핵심 결론
- 벤치마크 — 의료·사무·교육·가정 4개 도메인, 장기 다자간 에피소드, 점진적 메모리 주입, 숨겨진 체크포인트, 구조적 판정, 누출 대상 주석 포함.
- 실험 결과 — 긴 컨텍스트 프롬프팅이 거버넌스 점수 최고지만 토큰 비용 큼. 검색 기반·외부 메모리는 비용 낮으나 권한 없는 정보·삭제 정보 유출.
- 어떤 방법도 유틸리티·접근 제어·망각을 동시에 만족하지 못했습니다.
방법
- 다중 주체 시나리오 — 여러 사용자가 각각 다른 역할·범위·관계로 공유 메모리에 쓰고 질의하는 환경을 모델링.
- 평가 축 — ① 합법적 장기 요청에 대한 유틸리티(상태 업데이트 포함), ② 컨텍스트 기반 접근 제어, ③ 명시적 삭제 요청 후 능동적 망각.
- 누출 대상(leak-target) 주석을 통해 어느 정보가 어디서 새는지 추적 가능합니다.
한계·조건
- 도메인 범위 — 4개 도메인에 국한되며, 실제 배포의 복잡성을 완전히 반영하지는 않습니다.
- 재현성 — 벤치마크는 공개되었으나, 실험에 사용된 백본 모델의 세부 설정이 일부 미공개일 수 있습니다.
- 현재 메모리 에이전트는 신뢰할 수 있는 공유 기관 배포에 한참 미치지 못한다는 결론입니다.
편집자 한 줄
공유 메모리 환경에서의 거버넌스를 체계적으로 평가한 첫 벤치마크라는 점에서 의미가 있습니다. 다만 실제 배포 조건(예: 수천 명 사용자, 실시간 업데이트)에서의 확장성은 추가 검증이 필요해 보입니다.
- #llm-agents
- #memory
- #benchmark
- #access-control
- #forgetting
Zhe Ren