← Back to feed
Papers·1주 전

중국 홍콩중문대, 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1 공개 — OmniGAIA 벤치마크에서 정확도 10.3% 향상

중국 홍콩중문대, 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1 공개 — OmniGAIA 벤치마크에서 정확도 10.3% 향상

홍콩중문대 연구팀이 텍스트·이미지·오디오·비디오 등 다양한 모달리티를 통합 처리하는 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1을 발표했습니다. 모달리티 인식 태스크 분해, 온라인 서브에이전트 전문화, 병렬 실행을 지원하는 통합 오케스트레이션 메커니즘이 핵심이며, OmniGAIA 벤치마크에서 두 번째로 좋은 방식보다 정확도가 10.3% 높았습니다. 또한 DA-GRPO라는 강화학습 방법으로 학습한 8B 모델이 기존 오픈소스 옴니모달 에이전트 중 최고 성능을 달성했습니다.

홍콩중문대가 텍스트·이미지·오디오·비디오를 통합하는 옴니모달 에이전트 오케스트레이션 프레임워크 Orchestra-o1을 공개했습니다.

핵심 결론

  • 벤치마크OmniGAIA 벤치마크에서 두 번째로 좋은 방식보다 정확도 10.3% 향상.
  • 모델Orchestra-o1-8B는 DA-GRPO 강화학습으로 학습되어 오픈소스 옴니모달 에이전트 중 SOTA 달성.

방법

  • 통합 오케스트레이션모달리티 인식 태스크 분해, 온라인 서브에이전트 전문화, 병렬 실행을 지원하는 메커니즘.
  • DA-GRPO결정 정렬 그룹 상대 정책 최적화(Decision-Aligned Group Relative Policy Optimization)라는 새로운 강화학습 기법.
  • 기존 오케스트레이션 방식은 좁은 모달리티 집합에 한정되었으나, Orchestra-o1은 이종 모달리티가 공존하는 복잡한 환경을 처리합니다.

한계·조건

  • 평가OmniGAIA 벤치마크 하나로 평가되어 다른 벤치마크에서의 일반화는 추가 검증 필요.
  • 공개코드와 모델은 공개 예정이나 현재 시점에서는 논문과 데모만 확인 가능.

편집자 한 줄

옴니모달 에이전트 오케스트레이션은 아직 초기 단계인데, 이 프레임워크는 모달리티 간 협업을 체계화했다는 점에서 의미가 있습니다.

  • #agent-orchestration
  • #omnimodal
  • #llm-agents
  • #cuhk
The Chinese University of Hong Kong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —