Papers·어제

Zhejiang 대학, LLM 에이전트의 자기확증 함정 해결하는 EDV 프레임워크 — 3개 벤치마크에서 일관된 개선

Zhejiang 대학 팀이 LLM 에이전트의 경험 학습에서 자기확증 함정(Self-Confirmation Trap)을 해결하는 Execute-Distill-Verify(EDV) 프레임워크를 제안했습니다. 단일 에이전트 루프 대신 다중 이질적 에이전트가 병렬 탐색하고, 제3자 에이전트가 비교 분석하며, 합의 메커니즘으로 검증한 경험만 메모리에 저장합니다. tau2-bench, Mind2Web, MMTB 세 장기 과제 벤치마크에서 기존 방법보다 일관되게 높은 성능을 보였으며, 코드도 공개되었습니다.

LLM 에이전트가 경험을 통해 스스로 진화할 때, 잘못된 궤적을 성공으로 오인하는 자기확증 함정을 다중 에이전트 협력으로 해결한 접근입니다.

핵심 결론

태스크 — 장기 과제(long-horizon) 벤치마크 tau2-bench, Mind2Web, MMTB에서 EDV가 기존 경험 학습 방법보다 일관되게 우수한 성능을 기록했습니다.
개선폭 — tau2-bench에서 성공률 12%p 향상 등 주요 지표에서 유의미한 차이를 보였습니다.

방법

Execute — 여러 이질적 에이전트(서로 다른 LLM 기반)가 동일 태스크 공간을 병렬 탐색하여 다양한 후보 궤적을 생성합니다.
Distill — 전용 제3자 에이전트가 이 궤적들을 비교 분석하여 실행자 편향을 줄인 후보 경험을 추출합니다.
Verify — 실행 그룹이 합의 메커니즘으로 후보 경험을 검증하고, 승인된 것만 공유 또는 개인 메모리에 기록합니다.
세 단계를 분리함으로써 경험 학습을 고립된 자기 반성에서 협력적 구성으로 전환한 점이 핵심입니다.

한계·조건

리소스 — 다중 이질적 에이전트를 병렬로 운영해야 하므로 단일 에이전트 방식보다 compute 비용이 높습니다.
코드 — GitHub에 코드가 공개되어 있어 재현 가능합니다.

편집자 한 줄

자기확증 함정이라는 문제 정의와 다중 에이전트 검증이라는 해법이 깔끔하게 맞아떨어지는 논문입니다. 다만 에이전트 수와 다양성에 따른 비용-성능 트레이드오프가 실용화의 관건이 될 듯합니다.

#llm-agents
#self-evolution
#experience-learning
#zhejiang-university

Zhejiang University

원문 보기 →

Zhejiang 대학, LLM 에이전트의 자기확증 함정 해결하는 EDV 프레임워크 — 3개 벤치마크에서 일관된 개선

핵심 결론

방법

한계·조건

Comments