← Back to feed
Papers·5일 전

GateMem: 다중 주체 공유 메모리 에이전트 벤치마크 — 유틸리티·접근 제어·망각 모두 평가

GateMem: 다중 주체 공유 메모리 에이전트 벤치마크 — 유틸리티·접근 제어·망각 모두 평가

Zhe Ren 팀이 병원·사무실·학교·가정 등 다중 사용자가 공유 메모리를 사용하는 LLM 에이전트 환경을 평가하는 벤치마크 GateMem을 공개했습니다. 기존 단일 사용자 메모리 벤치마크와 달리, 공유 메모리에서의 유틸리티(장기 요청·상태 업데이트), 접근 제어(컨텍스트 기반 권한), 능동적 망각(삭제 요청 후 정보 누출)을 종합 측정합니다. 다양한 백본 모델 실험 결과, 긴 컨텍스트 프롬프팅이 가장 높은 거버넌스 점수를 보였지만 토큰 비용이 크고, 검색 기반·외부 메모리 방식은 비용을 줄이나 권한 없는 정보나 삭제된 정보를 여전히 유출하는 등 현재 메모리 에이전트는 신뢰할 수 있는 공유 배포에 한참 미치지 못합니다.

다중 사용자가 공유 메모리를 사용하는 LLM 에이전트의 유틸리티·접근 제어·망각을 종합 평가하는 벤치마크 GateMem이 공개되었습니다.

핵심 결론

  • 벤치마크의료·사무·교육·가정 4개 도메인, 장기 다자간 에피소드, 점진적 메모리 주입, 숨겨진 체크포인트, 구조적 판정, 누출 대상 주석 포함.
  • 실험 결과긴 컨텍스트 프롬프팅이 거버넌스 점수 최고지만 토큰 비용 큼. 검색 기반·외부 메모리는 비용 낮으나 권한 없는 정보·삭제 정보 유출.
  • 어떤 방법도 유틸리티·접근 제어·망각을 동시에 만족하지 못했습니다.

방법

  • 다중 주체 시나리오여러 사용자가 각각 다른 역할·범위·관계로 공유 메모리에 쓰고 질의하는 환경을 모델링.
  • 평가 축① 합법적 장기 요청에 대한 유틸리티(상태 업데이트 포함), ② 컨텍스트 기반 접근 제어, ③ 명시적 삭제 요청 후 능동적 망각.
  • 누출 대상(leak-target) 주석을 통해 어느 정보가 어디서 새는지 추적 가능합니다.

한계·조건

  • 도메인 범위4개 도메인에 국한되며, 실제 배포의 복잡성을 완전히 반영하지는 않습니다.
  • 재현성벤치마크는 공개되었으나, 실험에 사용된 백본 모델의 세부 설정이 일부 미공개일 수 있습니다.
  • 현재 메모리 에이전트는 신뢰할 수 있는 공유 기관 배포에 한참 미치지 못한다는 결론입니다.

편집자 한 줄

공유 메모리 환경에서의 거버넌스를 체계적으로 평가한 첫 벤치마크라는 점에서 의미가 있습니다. 다만 실제 배포 조건(예: 수천 명 사용자, 실시간 업데이트)에서의 확장성은 추가 검증이 필요해 보입니다.

  • #llm-agents
  • #memory
  • #benchmark
  • #access-control
  • #forgetting
Zhe Ren
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —