Papers·1개월 전

Reflexion 에이전트의 기억 조작 — ALFWorld/HumanEval 에서 자기 진단 실패율 0% → 86%

UMBC 팀이 Reflexion 스타일 에이전트가 자신의 실패를 정확히 진단하지 못하고 잘못된 해석을 기억으로 고정시키는 'memory confabulation' 현상을 발견했습니다. ALFWorld 와 HumanEval 에서 에이전트가 환경이 리셋되었음에도 잘못된 해석을 반복하며, ALFWorld 16개 frozen 환경에서 121개 reflection 중 0개만 올바른 목표 객체를 언급했습니다. 제안한 mitigation 은 개방형 자기 진단 대신 trajectory 수준의 실패 신호를 프로그램적으로 추출하여, 올바른 객체 언급률을 0%에서 86%로, RRR(반복 오류율)을 0.64에서 0.10으로 개선했습니다.

Reflexion 에이전트가 자신의 실패를 반복적으로 잘못 해석하며 기억을 고정시키는 'memory confabulation' 현상을 UMBC 팀이 체계적으로 분석했습니다.

핵심 결론

발견 — Reflexion 에이전트가 자기 진단을 신뢰할 수 없으며, 잘못된 해석을 반복적으로 기억에 저장합니다.
수치 — ALFWorld 16개 frozen 환경에서 121개 reflection 중 0개만 올바른 목표 객체를 언급했습니다.
개선 — Mitigation 적용 후 올바른 객체 언급률 0% → 86%, RRR 0.64 → 0.10, frozen 환경 3개 해결.

방법

지표 — Reflection Repetition Rate (RRR) — 로그 기반으로 잘못된 reflective content 의 반복 의존도를 측정합니다.
Mitigation — 개방형 자기 진단 대신 trajectory 수준의 실패 신호를 프로그램적으로 추출하여 reflection 을 생성합니다.
이 방식은 에이전트가 환경 리셋 후에도 잘못된 belief 를 유지하는 문제를 완화합니다.

한계·조건

벤치 — ALFWorld 와 HumanEval 두 벤치마크에 한정 — 더 다양한 환경에서의 검증이 필요합니다.
재현성 — 코드 공개 여부는 명시되지 않았습니다.
리소스 — Mitigation 의 계산 비용은 기존 Reflexion 과 유사하지만, 추가적인 trajectory 분석 로직이 필요합니다.

편집자 한 줄

Reflexion 의 가정을 깨는 중요한 발견입니다. 자기 진단이 오히려 오류를 강화할 수 있다는 점은 실용적 함의가 크네요.

#reflexion
#memory
#confabulation
#alfworld
#humaneval

THE UNIVERSITY OF MARYLAND BALTIMORE COUNTY

원문 보기 →

Reflexion 에이전트의 기억 조작 — ALFWorld/HumanEval 에서 자기 진단 실패율 0% → 86%

핵심 결론

방법

한계·조건

Comments