Papers·4일 전
SubtleMemory — 장기 AI 에이전트의 관계형 기억 변별력 벤치마크, 현 시스템 한계 확인

OpenClaw 같은 지속형 AI 어시스턴트는 장기 상호작용에서 방대한 기억을 축적하지만, 기억 간 관계(상호 보강, 맥락 분기, 직접 충돌)를 정확히 활용하지 못합니다. 이에 저자들은 1,522개 평가 인스턴스, 10개 장기 히스토리로 구성된 SubtleMemory 벤치마크를 제안, 6개 독립 메모리 시스템과 5개 Claw 스타일 에이전트를 평가한 결과 세밀한 관계형 기억 변별에서 전반적으로 취약함을 확인했습니다. 진단 프로토콜을 통해 기억 보존·검색·추론 단계별 능력 프로파일도 공개했습니다.
장기 AI 에이전트가 기억 간 관계를 얼마나 잘 변별하는지 측정하는 새로운 벤치마크 SubtleMemory가 공개되었습니다.
핵심 결론
- 벤치 — 1,522개 평가 인스턴스, 10개 장기 히스토리, 1,090개 관계 제어 기억 변이 세트로 구성.
- 평가 대상 — 6개 독립 메모리 시스템, 2개 Claw 스타일 에이전트(네이티브 메모리), 3개 Claw 스타일 에이전트(플러그인 메모리).
- 결과 — 현 시스템은 세밀한 관계형 기억 변별에서 전반적으로 취약. 기억 보존·검색·추론 단계별로 다른 능력 프로파일을 보임.
방법
- 관계 제어 — 잠재 의미 아티팩트에 상호 보완·미묘·모순 관계를 가진 변이를 구성, 현실적인 사용자-에이전트 히스토리에 삽입.
- 쿼리 유형 — 사용자 관련 및 비사용자 관련 쿼리를 모두 포함하여 관계 기억 회복 능력을 평가.
한계·조건
- 범위 — 벤치마크는 10개 장기 히스토리로 제한되며, 실제 배포 환경의 무한한 변동성을 완전히 포괄하지는 않음.
- 코드 — 현재 논문과 벤치마크 데이터는 공개되었으나, 평가 코드 공개 여부는 추후 확인 필요.
편집자 한 줄
기억 관계 변별이라는 잘 덜 다뤄진 과제를 정량화한 점이 의미 있습니다. 다만 10개 히스토리만으로 일반화하기엔 다소 작은 규모라, 후속 확장이 기대됩니다.
- #long-term-memory
- #benchmark
- #ai-agents
- #memory-relations
Wenxuan Wang