Papers·1개월 전

LLM 멀티 에이전트 시스템의 RL 학습 — 작업 분배·위임·통신·중단까지 최적화

이 논문은 LLM 기반 멀티 에이전트 시스템에서 강화학습(RL)을 적용하기 위한 체계적인 프레임워크를 제시합니다. 보상 설계 8개 패밀리, 크레딧 할당 단위 8종, 오케스트레이션 학습의 5개 하위 결정(생성·위임·통신·집계·중단)을 식별했으며, 특히 '중단 결정'에 대한 명시적 RL 훈련 방법은 2026년 5월 기준으로 발견되지 않았다는 점이 흥미롭습니다. Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Code 등 산업 사례와의 비교를 통해 공개 학술 평가와 실제 배포 간 규모 차이를 지적하며, 84개 논문 태그 풀과 재현 가능한 오케스트레이션 트레이스 JSON 스키마를 공개합니다.

#multi-agent
#reinforcement-learning
#llm-agents
#orchestration
#reward-design

Chenchen Zhang

원문 보기 →

LLM 멀티 에이전트 시스템의 RL 학습 — 작업 분배·위임·통신·중단까지 최적화

Comments