Papers·1개월 전

SEAL: 에이전트-환경 공동 진화로 400 샘플만에 +8~26점 향상

Westlake University 연구진이 LLM 에이전트의 자기 진화 과정에서 정책과 학습 환경을 동시에 적응시키는 SEAL 프레임워크를 제안했습니다. 기존 방식이 정책 또는 환경 중 하나만 개선하던 문제를 지적하며, 실행 가능한 궤적을 수집하고 실패 진단을 통해 환경의 툴 어포던스 단서와 정책의 보상 가중치를 함께 업데이트합니다. 400개 훈련 샘플만으로 세 가지 백본에서 평균 8.25~26.25점 향상을 보였고, 분포 외 일반화도 긍정적이었습니다. 다만 실험은 멀티턴 툴 사용 태스크에 국한되며, 코드 공개 여부는 아직 확인되지 않았습니다.

#llm-agents
#self-evolution
#tool-use
#westlake-university

Westlake University

원문 보기 →

SEAL: 에이전트-환경 공동 진화로 400 샘플만에 +8~26점 향상

Comments