Papers·어제
Maestro: RL 기반 멀티모달 에이전트 오케스트레이션 — 4B 정책으로 GPT-5 능가 (평균 70.1%)

Jinyang Wu 팀이 제안한 Maestro는 RL을 활용해 여러 frozen 전문가 모델과 스킬 라이브러리를 동적으로 조합하는 경량 정책(4B)을 학습합니다. 10개 멀티모달 벤치마크에서 평균 70.1%로 GPT-5(69.3%)와 Gemini-2.5-Pro(68.7%)를 능가했으며, 미처 본 모델·스킬에도 일반화됩니다. 단, 정책 학습에 상당한 RL 수렴 비용이 필요하고, 레지스트리 규모가 커질수록 탐색 공간이 급증할 가능성이 있습니다.
- #reinforcement-learning
- #multiagent
- #multimodal
- #orchestration
- #llm
Jinyang Wu