Papers·1주 전
중국 홍콩중문대, 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1 공개 — OmniGAIA 벤치마크에서 정확도 10.3% 향상

홍콩중문대 연구팀이 텍스트·이미지·오디오·비디오 등 다양한 모달리티를 통합 처리하는 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1을 발표했습니다. 모달리티 인식 태스크 분해, 온라인 서브에이전트 전문화, 병렬 실행을 지원하는 통합 오케스트레이션 메커니즘이 핵심이며, OmniGAIA 벤치마크에서 두 번째로 좋은 방식보다 정확도가 10.3% 높았습니다. 또한 DA-GRPO라는 강화학습 방법으로 학습한 8B 모델이 기존 오픈소스 옴니모달 에이전트 중 최고 성능을 달성했습니다.
홍콩중문대가 텍스트·이미지·오디오·비디오를 통합하는 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1을 공개했습니다.
핵심 결론
- 벤치마크 — OmniGAIA 벤치마크에서 두 번째로 좋은 방식보다 정확도 10.3% 향상.
- 모델 — Orchestra-o1-8B는 DA-GRPO 강화학습으로 학습되어 오픈소스 옴니모달 에이전트 중 SOTA 달성.
방법
- 통합 오케스트레이션 — 모달리티 인식 태스크 분해, 온라인 서브에이전트 전문화, 병렬 실행을 지원하는 메커니즘.
- DA-GRPO — 결정 정렬 그룹 상대 정책 최적화(Decision-Aligned Group Relative Policy Optimization)라는 새로운 강화학습 기법.
- 기존 오케스트레이션 방식은 좁은 모달리티 집합에 한정되었으나, Orchestra-o1은 이종 모달리티가 공존하는 복잡한 환경을 처리합니다.
한계·조건
- 평가 — OmniGAIA 벤치마크 하나로 평가되어 다른 벤치마크에서의 일반화는 추가 검증 필요.
- 공개 — 코드와 모델은 공개 예정이나 현재 시점에서는 논문과 데모만 확인 가능.
편집자 한 줄
옴니모달 에이전트 오케스트레이션은 아직 초기 단계인데, 이 프레임워크는 모달리티 간 협업을 체계화했다는 점에서 의미가 있습니다.
- #agent-orchestration
- #omnimodal
- #llm-agents
- #cuhk
The Chinese University of Hong Kong