Papers·1개월 전

Mem-π: LLM 에이전트의 적응형 메모리 — 검색 대신 생성, 웹 탐색 30% 향상

Mem-π는 LLM 에이전트가 외부 메모리 저장소에서 검색하는 대신, 전용 생성 모델을 통해 맥락에 맞는 지침을 그때그때 생성하는 프레임워크입니다. 기존 검색 기반 방법은 정적인 항목을 반환해 현재 맥락과 맞지 않는 경우가 많았지만, Mem-π는 결정-내용 분리 강화학습(RL) 목적으로 훈련된 별도의 언어/비전-언어 모델이 언제, 어떤 지침을 생성할지 결정합니다. 웹 탐색, 터미널 기반 도구 사용, 텍스트 기반 임베디드 상호작용 등 다양한 에이전트 벤치마크에서 검색 기반 및 기존 RL 최적화 메모리 기준선을 일관되게 능가했으며, 특히 웹 탐색 작업에서 30% 이상의 상대적 개선을 보였습니다.

#llm-agents
#memory
#reinforcement-learning
#web-navigation

Xiaoqiang Wang

원문 보기 →

Mem-π: LLM 에이전트의 적응형 메모리 — 검색 대신 생성, 웹 탐색 30% 향상

Comments