Papers·2개월 전

AgensFlow: 멀티 에이전트 조정을 온라인 정책 학습 문제로 푸는 프레임워크

LLM 기반 멀티 에이전트 시스템에서 스킬·역할·모델·토폴로지 등 조정 결정을 정적 파이프라인이 아닌 온라인 정책 학습 문제로 푸는 오픈소스 프레임워크 AgensFlow를 소개합니다. 분산 시스템 장애 및 보안 자문 태스크에서 고정 파이프라인 대비 더 높은 품질의 운영점에 도달했으며, 토폴로지 압축이 성능에 유의미한 영향을 미친다는 점을 확인했습니다. 단, 평가 태스크가 두 도메인에 한정되어 일반화 가능성은 추가 검증이 필요합니다.

멀티 에이전트 시스템의 수많은 조정 결정을 고정 파이프라인이 아닌, 반복 궤적으로부터 학습 가능한 정책으로 바꾼 프레임워크입니다.

핵심 결론

벤치 — 분산 시스템 장애 및 보안 자문 태스크에서, 조정이 복잡한 클래스에 대해 학습된 라우팅이 고정 파이프라인보다 더 높은 품질의 운영점에 도달했습니다.
결과 — skip:X 실험을 통해 토폴로지 압축이 성능에 유의미한 요소임을 확인했고, warm-start 정책 그래프가 탐색 비용을 줄이면서 품질을 유지할 수 있음을 보였습니다.

방법

핵심 아이디어 — 스킬·역할·모델·토폴로지·검증 등 조정 결정을 부분 관찰 가능 환경에서 온라인 정책 학습 문제로 모델링합니다.
정적 파이프라인 대신, 반복 궤적을 통해 어떤 결정이 좋은 결과를 내는지 학습할 수 있게 한 점이 특징입니다.

한계·조건

태스크 범위 — 분산 시스템 장애와 보안 자문 두 도메인에 한정되어 평가되었습니다.
공개 — 오픈소스로 공개되어 재현 가능합니다.

편집자 한 줄

멀티 에이전트 조정을 학습 문제로 푼 점은 참신하지만, 평가 태스크가 좁아 일반화 가능성은 좀 더 지켜봐야겠네요.

#multi-agent
#llm
#reinforcement-learning
#coordination
#opensource

Nicole Koenigstein

원문 보기 →

AgensFlow: 멀티 에이전트 조정을 온라인 정책 학습 문제로 푸는 프레임워크

핵심 결론

방법

한계·조건

Comments