Papers·1개월 전

웹 에이전트 장기 메모리 벤치마크 LME-V2 — AgentRunbook-C 가 72.5% 정확도로 RAG 대비 24%p 개선

UCLA NLP 팀이 웹 에이전트의 환경 경험 장기 메모리를 평가하는 벤치마크 LongMemEval-V2 (LME-V2) 를 공개했습니다. 451개의 수작업 질문으로 다섯 가지 메모리 능력(정적 상태 회상, 동적 상태 추적, 워크플로 지식, 환경 함정, 전제 인식)을 측정하며, 최대 500개 궤적·115M 토큰의 히스토리를 사용합니다. 제안된 방법 AgentRunbook-C 는 궤적을 파일로 저장하고 코딩 에이전트가 증거를 수집하는 방식으로 평균 정확도 72.5%를 기록, 강력한 RAG 베이스라인(48.5%)과 기성 코딩 에이전트(69.3%)를 모두 앞질렀습니다. 다만 코딩 기반 방식은 높은 레이턴시 비용이 드는 한계가 있습니다.

#long-context
#memory
#web-agent
#benchmark
#ucla

UCLA NLP

원문 보기 →

웹 에이전트 장기 메모리 벤치마크 LME-V2 — AgentRunbook-C 가 72.5% 정확도로 RAG 대비 24%p 개선

Comments