Papers·1개월 전

SAM: 상태 적응형 메모리로 장기 에이전트 추론 해결 — BrowseComp 등 4개 벤치에서 SOTA

Yuyang Hu 팀이 장기 에이전트 추론을 위해 상태 적응형 메모리(SAM) 프레임워크를 제안했습니다. SAM은 상호작용 기록을 압축된 메모리 큐로 통합하면서도 원시 궤적 페이지를 의도 기반 검색용으로 보존합니다. BrowseComp, BrowseComp-ZH, WideSearch, HLE에서 다양한 에이전트 백본에 대해 강력한 기준선을 일관되게 능가했습니다. 단, SAM은 별도의 메모리 모듈 학습이 필요하며, 기존 LLM을 재학습하지 않지만 메모리 최적화를 위한 전문가 지도 및 강화 학습 단계가 추가로 듭니다.

장기 에이전트 추론에서 정보가 여러 단계에 분산되어 필요한 시점에 접근하기 어려운 문제를 해결하기 위해, 상태 적응형 메모리(SAM)라는 독립형 프레임워크가 제안되었습니다.

핵심 결론

벤치마크 — BrowseComp, BrowseComp-ZH, WideSearch, HLE에서 다양한 에이전트 백본(GPT-4o, Claude 등)에 대해 기존 방법(truncation, compression, retrieval)보다 높은 정확도를 기록.
효과 — 메모리 큐와 원시 페이지 검색을 결합해 긴 상호작용 기록에서도 정보 손실 없이 추론 성능을 유지.

방법

구조 — SAM은 두 가지 구성 요소로 작동: (1) 압축된 메모리 큐 — 현재 상태에 맞춰 과거 단계를 요약한 경량 핸들, (2) 원시 궤적 페이지 — 의도 기반 검색을 위한 전체 기록 저장소.
학습 — 메모리 모듈을 전문가 궤적 지도 학습과 강화 학습(궤적 수준 보상)으로 최적화. backbone 모델은 재학습하지 않음.
핵심 아이디어는 메모리 큐가 단순한 요약이 아니라, 에이전트의 현재 필요에 따라 과거 정보를 재구성할 수 있는 '핸들' 역할을 한다는 점입니다.

한계·조건

리소스 — 메모리 모듈 학습에 전문가 궤적 데이터와 강화 학습 환경이 필요. backbone 모델 자체는 재학습하지 않지만, 추가 학습 단계가 듭니다.
범위 — 평가된 태스크는 웹 검색 및 추론 중심(BrowseComp, WideSearch, HLE)이며, 다른 도메인(예: 코드 생성, 로봇 제어)에서의 일반화는 검증되지 않음.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

메모리 큐를 단순 압축이 아닌 '상태 적응형 핸들'로 설계한 점이 인상적입니다. 다만 학습 비용이 무시할 수준은 아니어서, 실용화를 위해서는 경량화가 필요해 보입니다.

#state-adaptive-memory
#long-horizon-reasoning
#agent
#browsecomp
#huggingface

Yuyang Hu

원문 보기 →

SAM: 상태 적응형 메모리로 장기 에이전트 추론 해결 — BrowseComp 등 4개 벤치에서 SOTA

핵심 결론

방법

한계·조건

Comments