Papers·어제
NUS, 자기 진화 에이전트 OPD-Evolver — 4단계 메모리 계층과 on-policy 자기 증류로 ReasoningBank 대비 11.5% 향상

NUS 팀이 메모리 기반 자기 진화 에이전트 OPD-Evolver를 제안했습니다. fast loop에서 4단계 메모리 계층(읽기-사용-쓰기-유지)을 통해 경험을 빠르게 활용하고, slow loop에서 outcome-calibrated memory attribution과 privileged hindsight으로 네 가지 능력을 정책에 증류합니다. 다중 도메인 벤치마크에서 ReasoningBank 대비 최대 11.5%, Skill0 대비 약 5.8% 높은 성능을 기록했으며, 9B 모델로 Qwen3.5-397B-A17B 등 거대 모델과 견줄 만한 결과를 보였습니다. 단, 학습 과정에서 privileged information이 필요해 재현성에 주의가 필요합니다.
NUS 팀이 메모리 계층과 자기 증류를 결합해 경험으로부터 진화하는 에이전트 OPD-Evolver를 공개했습니다.
핵심 결론
- 태스크 — 자기 진화 에이전트 — 메모리 기반 경험을 통해 테스트 타임에 적응 및 능력 향상.
- 성능 — 다중 도메인 벤치마크에서 ReasoningBank 대비 최대 11.5%, Skill0 대비 약 5.8% 향상.
- 스케일 — OPD-Evolver-9B가 Qwen3.5-397B-A17B, Step-3.5-Flash 등 거대 모델과 경쟁 가능.
방법
- slow-fast 프레임워크 — fast loop는 4단계 메모리 계층(읽기-사용-쓰기-유지)으로 실시간 진화, slow loop는 outcome-calibrated attribution과 privileged hindsight으로 네 능력을 정책에 증류.
- 메모리 계층 — 4단계: working memory, episodic memory, procedural memory, semantic memory — 각각 단기/장기/기술/지식 저장.
- 자기 증류 — On-policy self-distillation: fast loop의 경험을 slow loop에서 정책으로 증류해 배포 가능한 에이전트 생성.
한계·조건
- 재현성 — Privileged hindsight 정보가 필요해 실제 환경에서의 재현에 주의 필요.
- 코드 — 현재 논문 및 abstract만 공개, 코드 및 모델 가중치 공개 여부 미정.
- 벤치 — 다중 도메인 벤치마크 결과이나, 특정 태스크에서의 일반화 검증은 추가 필요.
편집자 한 줄
메모리 계층 구조와 자기 증류의 결합이 인상적이나, privileged information 의존도가 실제 적용의 걸림돌이 될 수 있겠네요.
- #self-evolving-agents
- #memory
- #distillation
- #nus
National University of Singapore