Papers·1개월 전

MMPO: 메모리 정책 최적화로 175만 토큰 컨텍스트에서도 97.1% 성능 유지

중국과학기술대(USTC) 팀이 장기 태스크에서 LLM 에이전트의 메모리 정책을 최적화하는 Metacognitive Memory Policy Optimization(MMPO)을 제안했습니다. 기존 outcome 기반 RL은 중간 메모리 품질 저하를 포착하지 못하는 한계가 있는데, MMPO는 Belief Entropy라는 자기지도 프록시로 요약이 유발하는 인식 불확실성을 직접 패널티합니다. 1.75M 토큰 컨텍스트까지 확장해도 97.1% 성능을 유지하며 기존 방법들을 일관되게 앞섰습니다.

중국과학기술대 연구진이 장기 태스크에서 LLM 에이전트의 메모리 정책을 미세하게 최적화하는 방법을 내놓았습니다.

핵심 결론

성능 — 다양한 장기 태스크에서 기존 방법 대비 일관된 성능 향상, 1.75M 토큰 컨텍스트에서도 97.1% 유지.
벤치 — 기존 outcome 기반 RL 대비 중간 메모리 품질이 크게 개선되어 belief deviation이 줄었습니다.

방법

Belief Entropy — 현재 메모리가 주어졌을 때 모델이 잠재 태스크 상태에 대해 얼마나 불확실한지 측정하는 자기지도 프록시.
MMPO — 희소한 outcome 신호 대신 Belief Entropy가 높은 요약에 직접 패널티를 줘 메모리별 미세한 감독을 제공.
기존 방법들은 중간 요약의 품질 저하를 국소화하지 못해 점진적으로 정보가 손실되는 문제가 있었는데, MMPO는 이를 해결합니다.

한계·조건

환경 — 실험은 특정 LLM 백본과 태스크에 국한되어 일반화 검증이 더 필요합니다.
코드 — 현재 코드는 공개되지 않았습니다.

편집자 한 줄

Belief Entropy라는 프록시가 단순하면서도 효과적으로 보여, 메모리 최적화 방향에 대한 좋은 인사이트를 줍니다.

#llm-agent
#memory
#reinforcement-learning
#ustc

university of science and technology of china

원문 보기 →

MMPO: 메모리 정책 최적화로 175만 토큰 컨텍스트에서도 97.1% 성능 유지

핵심 결론

방법

한계·조건

Comments