Papers·1주 전
HKUST, LLM 에이전트의 메모리 갱신 능력 평가 — STALE 벤치마크와 CUPMem 제안

HKUST NLP Group이 LLM 에이전트가 새로운 증거에 맞춰 저장된 믿음을 수정하는 능력을 평가하는 STALE 벤치마크(400개 시나리오, 1,200개 질의)를 공개했습니다. 세 가지 차원(상태 해결, 전제 저항, 암묵적 정책 적응)에서 평가한 결과, 최고 모델도 정확도 55.2%에 그쳐 검색된 증거를 실제 행동에 반영하는 데 큰 격차가 있음을 보여줍니다. 함께 제안된 CUPMem은 쓰기 시점에 상태를 구조화하고 전파를 고려한 검색으로 메모리 갱신을 강화하는 프로토타입입니다.
- #llm-agents
- #memory
- #benchmark
- #hkust
HKUST NLP Group