Papers·2개월 전

PEAM: 마인크래프트 에이전트가 경험을 파라미터로 내재화하는 메모리 프레임워크

PEAM은 마인크래프트 에이전트가 경험을 통해 습득한 스킬을 파라미터에 내재화하는 프레임워크로, 느린 추론 LLM과 빠른 파라메트릭 모듈을 결합합니다. 멀티모달 MoE LoRA 구조로 범주별 어댑터를 물리적으로 분리해 파라미터 수준의 지속적 학습에서도 망각을 완화했으며, 실패-교정 궤적을 행동 복제와 대조 손실로 내재화해 실패를 학습 신호로 활용합니다. 실험 결과 장기 과제 성능이 향상되고 이전 스킬 망각이 줄었으며, 검색 기반 에이전트 대비 효율이 개선되었습니다.

PEAM은 마인크래프트 에이전트가 경험을 파라미터에 내재화해 검색 없이도 스킬을 실행할 수 있게 하는 메모리 프레임워크입니다.

핵심 결론

성능 — 장기 과제(long-horizon task) 성능이 개선되었고, 이전에 내재화한 스킬에 대한 망각이 완화되었습니다.
효율 — 검색 기반 에이전트 대비 파라미터-검색 효율(parametric-versus-retrieval efficiency)이 향상되었습니다.

방법

이중 구조 — 느린 추론 LLM(deliberative LLM)과 빠른 파라메트릭 모듈을 쌍으로 사용해, LLM은 개방형 추론을, 파라메트릭 모듈은 내재화된 스킬의 반사적 실행을 담당합니다.
파라미터화 — 멀티모달 MoE LoRA 구조로, 범주별로 물리적으로 분리된 어댑터를 사용해 파라미터 수준의 지속적 학습에서도 망각을 방지합니다.
실패 학습 — 실패-교정 궤적 쌍을 행동 복제(behavioral cloning)와 대조 손실(contrastive objective)로 내재화해, 성공뿐 아니라 교정된 행동이 실패와 어떻게 다른지도 학습합니다.
자기 진화 — 파라미터화 적합 점수(parameterization-worthiness score)로 어떤 경험을 내재화할지 결정하고, 규모 불변 자기 트리거(self-triggered consolidation)로 언제 내재화할지를 결정해, 태스크별 임계값 조정 없이도 에이전트가 스스로 진화합니다.

한계·조건

환경 — 모든 실험은 마인크래프트 환경에서 수행되었으며, 다른 도메인으로의 일반화는 추가 검증이 필요합니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

실패를 학습 신호로 적극 활용한 점과, 태스크별 튜닝 없이도 자기 진화가 가능하게 한 설계가 인상적입니다. 다만 마인크래프트 특화 벤치마크에서의 결과이므로, 다른 환경에서의 재현성을 지켜볼 필요가 있습니다.

#minecraft
#embodied-agent
#continual-learning
#memory
#moe

Yuchen Guo

원문 보기 →

PEAM: 마인크래프트 에이전트가 경험을 파라미터로 내재화하는 메모리 프레임워크

핵심 결론

방법

한계·조건

Comments