Papers·3개월 전

COSPLAY: LLM agent co-evolves with skill bank — 25.1% reward gain across 6 games

Microsoft Research와 협력 연구진이 제안한 COSPLAY는 LLM 게임 에이전트가 스킬 뱅크를 통해 장기 의사결정을 개선하는 공진화 프레임워크다. 에이전트는 스킬을 검색해 행동을 생성하고, 동시에 자체 롤아웃에서 재사용 가능한 스킬을 추출해 뱅크를 갱신한다. 6개 게임 환경에서 8B 모델이 네 가지 최첨단 LLM 기준선 대비 평균 보상 25.1% 향상을 달성했으나, 다중 에이전트 사회 추론 게임에서는 경쟁 수준에 머물렀다.

#llm-agents
#skill-discovery
#game-playing
#microsoft

Good Start Labs

원문 보기 →

COSPLAY: LLM agent co-evolves with skill bank — 25.1% reward gain across 6 games

Comments