← Back to feed
Papers·어제

Maestro: RL 기반 멀티모달 에이전트 오케스트레이션 — 4B 정책으로 GPT-5 능가 (평균 70.1%)

Maestro: RL 기반 멀티모달 에이전트 오케스트레이션 — 4B 정책으로 GPT-5 능가 (평균 70.1%)

Jinyang Wu 팀이 제안한 Maestro는 RL을 활용해 여러 frozen 전문가 모델과 스킬 라이브러리를 동적으로 조합하는 경량 정책(4B)을 학습합니다. 10개 멀티모달 벤치마크에서 평균 70.1%로 GPT-5(69.3%)와 Gemini-2.5-Pro(68.7%)를 능가했으며, 미처 본 모델·스킬에도 일반화됩니다. 단, 정책 학습에 상당한 RL 수렴 비용이 필요하고, 레지스트리 규모가 커질수록 탐색 공간이 급증할 가능성이 있습니다.

  • #reinforcement-learning
  • #multiagent
  • #multimodal
  • #orchestration
  • #llm
Jinyang Wu

Comments

— 첫 댓글을 남겨보세요 —