Papers·1개월 전

KAIST, 멀티-에이전트 메모리 벤치마크 MEME 공개 — Cascade 추론 정확도 3%

KAIST AI 팀이 다중 엔티티·진화 메모리를 평가하는 MEME 벤치마크를 제안했습니다. 기존 벤치마크가 다루지 않은 Cascade, Absence, Deletion 태스크를 포함해 여섯 가지 메모리 시스템을 100개 에피소드에서 평가한 결과, 의존성 추론(Cascade 3%, Absence 1%)에서 모든 시스템이 붕괴했습니다. 프롬프트 최적화나 강력한 LLM으로도 격차를 좁히지 못했고, Claude Opus 4.7을 내부 LLM으로 사용한 파일 기반 에이전트만이 부분적으로 개선했지만 비용이 기준 대비 70배로 실용적이지 않습니다. 코드와 데이터는 공개되었습니다.

#memory
#benchmark
#llm-agent
#kaist

KAIST AI

원문 보기 →

KAIST, 멀티-에이전트 메모리 벤치마크 MEME 공개 — Cascade 추론 정확도 3%

Comments