← Back to feed
Papers·어제

NUS, 자기 진화 에이전트 OPD-Evolver — 4단계 메모리 계층과 on-policy 자기 증류로 ReasoningBank 대비 11.5% 향상

NUS, 자기 진화 에이전트 OPD-Evolver — 4단계 메모리 계층과 on-policy 자기 증류로 ReasoningBank 대비 11.5% 향상

NUS 팀이 메모리 기반 자기 진화 에이전트 OPD-Evolver를 제안했습니다. fast loop에서 4단계 메모리 계층(읽기-사용-쓰기-유지)을 통해 경험을 빠르게 활용하고, slow loop에서 outcome-calibrated memory attribution과 privileged hindsight으로 네 가지 능력을 정책에 증류합니다. 다중 도메인 벤치마크에서 ReasoningBank 대비 최대 11.5%, Skill0 대비 약 5.8% 높은 성능을 기록했으며, 9B 모델로 Qwen3.5-397B-A17B 등 거대 모델과 견줄 만한 결과를 보였습니다. 단, 학습 과정에서 privileged information이 필요해 재현성에 주의가 필요합니다.

NUS 팀이 메모리 계층과 자기 증류를 결합해 경험으로부터 진화하는 에이전트 OPD-Evolver를 공개했습니다.

핵심 결론

  • 태스크자기 진화 에이전트 — 메모리 기반 경험을 통해 테스트 타임에 적응 및 능력 향상.
  • 성능다중 도메인 벤치마크에서 ReasoningBank 대비 최대 11.5%, Skill0 대비 약 5.8% 향상.
  • 스케일OPD-Evolver-9B가 Qwen3.5-397B-A17B, Step-3.5-Flash 등 거대 모델과 경쟁 가능.

방법

  • slow-fast 프레임워크fast loop는 4단계 메모리 계층(읽기-사용-쓰기-유지)으로 실시간 진화, slow loop는 outcome-calibrated attribution과 privileged hindsight으로 네 능력을 정책에 증류.
  • 메모리 계층4단계: working memory, episodic memory, procedural memory, semantic memory — 각각 단기/장기/기술/지식 저장.
  • 자기 증류On-policy self-distillation: fast loop의 경험을 slow loop에서 정책으로 증류해 배포 가능한 에이전트 생성.

한계·조건

  • 재현성Privileged hindsight 정보가 필요해 실제 환경에서의 재현에 주의 필요.
  • 코드현재 논문 및 abstract만 공개, 코드 및 모델 가중치 공개 여부 미정.
  • 벤치다중 도메인 벤치마크 결과이나, 특정 태스크에서의 일반화 검증은 추가 필요.

편집자 한 줄

메모리 계층 구조와 자기 증류의 결합이 인상적이나, privileged information 의존도가 실제 적용의 걸림돌이 될 수 있겠네요.

  • #self-evolving-agents
  • #memory
  • #distillation
  • #nus
National University of Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —