Papers·1개월 전

SciOrch: 8B 오케스트레이터로 프론티어 LLM 조합 — 과학 추론 56.66%, 단일 최고 모델보다 3.74%p↑

SciOrch는 8B 규모의 경량 모델을 학습시켜 여러 프론티어 LLM을 오케스트레이션하는 프레임워크로, SGI-Reasoning과 Scientists' First Exam 혼합 240문항에서 평균 56.66% 정확도를 달성했습니다. 이는 단일 최고 상용 모델보다 3.74%p, 최고 멀티에이전트 기준선보다 3.33%p 높은 수치입니다. MCTS로 오케스트레이션 경로를 생성하고 GRPO 방식으로 학습하는 점이 핵심이며, API 비용은 일반 멀티에이전트 방법의 절반 미만입니다.

프론티어 LLM들도 과학 추론에서 전문가 수준에 못 미치는 가운데, 각 모델이 서로 다른 유형의 문제에 강점을 보이는 상보성을 활용한 오케스트레이션 프레임워크가 나왔습니다.

핵심 결론

벤치 — SGI-Reasoning + Scientists' First Exam 240문항 평균 정확도 56.66% — 단일 최고 모델 대비 +3.74%p, 멀티에이전트 기준선 대비 +3.33%p.
비용 — API 비용은 일반 멀티에이전트 방법의 절반 미만으로 효율적입니다.

방법

오케스트레이터 — 8B 경량 모델이 질문을 분해하고, 하위 문제를 상용 모델 API에 위임한 뒤 최종 답변을 종합합니다.
학습 전략 — MCTS로 다양한 오케스트레이션 경로를 생성하고, 노드별 단일턴 샘플을 추출한 뒤 GRPO 스타일로 학습합니다. 온라인 롤아웃 없이도 효율적인 학습이 가능합니다.

한계·조건

테스트 규모 — 240문항으로 제한적이며, 더 큰 벤치마크에서의 일반화는 추가 검증이 필요합니다.
의존성 — 상용 모델 API에 의존하므로 각 모델의 가용성과 비용 변동에 영향을 받습니다.
코드 — 코드 공개 여부는 아직 명시되지 않았습니다.

편집자 한 줄

MCTS로 오프라인 경로를 생성하는 아이디어는 API 비용이 큰 시나리오에서 실용적인 접근으로 보입니다.

#orchestration
#scientific-reasoning
#mcts
#llm
#multi-agent

Jingru Guo

원문 보기 →

SciOrch: 8B 오케스트레이터로 프론티어 LLM 조합 — 과학 추론 56.66%, 단일 최고 모델보다 3.74%p↑

핵심 결론

방법

한계·조건

Comments