Papers·1개월 전

CASCADE: 배포 중에도 학습하는 LLM 에이전트 — 16개 태스크 성공률 20.9% 향상

Jilin University 연구팀이 LLM 에이전트가 배포 중에도 경험을 통해 개선할 수 있는 프레임워크 CASCADE를 제안했습니다. 파라미터를 고정한 상태에서 명시적인 에피소드 메모리를 유지하며, contextual bandit 문제로 경험 재사용을 공식화해 탐험-활용 균형을 맞추고 장기 상호작용에서 무후회 보장을 제공합니다. 의료 진단, 법률 분석, 코드 생성, 웹 검색, 도구 사용, 임베디드 상호작용 등 16개 태스크에서 zero-shot 대비 macro 평균 성공률을 20.9% 개선했으며, gradient 기반 및 메모리 기반 베이스라인을 일관되게 능가했습니다.

#llm
#continual-learning
#deployment-time-learning
#episodic-memory
#contextual-bandit

Jilin University

원문 보기 →

CASCADE: 배포 중에도 학습하는 LLM 에이전트 — 16개 태스크 성공률 20.9% 향상

Comments