Papers·어제
StreamMA: Multi-agent reasoning latency를 파이프라인으로 줄이면서 정확도도 개선

Zhen Yang 팀이 multi-agent reasoning의 'generate-then-transfer' 패러다임을 깨고, 각 reasoning step을 생성 즉시 downstream agent로 스트리밍하는 StreamMA를 제안했습니다. 이 파이프라인 방식은 end-to-end latency를 줄일 뿐 아니라, 초기 step이 후기 step보다 신뢰도가 높다는 점을 활용해 오류 전파를 막아 평균 7.3pp 정확도 향상을 달성했습니다. 단, 실험은 Claude Opus 4.6과 GPT-5.4에 한정되었고, topology별 최적 파이프라인 깊이는 추가 분석이 필요합니다.
Multi-agent reasoning의 'generate-then-transfer' 한계를 극복, 스트리밍 파이프라인으로 latency와 정확도를 동시에 개선한 접근법입니다.
핵심 결론
- 성능 — 8개 reasoning 벤치마크(수학, 과학, 코드)에서 serial 대비 평균 +7.3pp, 최대 +22.4pp (HMMT 2026, Claude Opus 4.6-high).
- 속도 — 파이프라인 depth에 따라 latency가 선형이 아닌 sub-linear로 감소, closed-form speedup upper bound 도출.
방법
- 스트리밍 — 각 agent가 reasoning step을 완료하는 즉시 다음 agent로 전달, 인접 agent를 파이프라인화.
- 신뢰도 차이 활용 — 초기 step이 후기 step보다 신뢰도가 높다는 관찰에 기반, 전체 chain 대신 초기 step만 전달해 오류 전파 차단.
- 분석 — Stream, Serial, Single 프로토콜의 closed-form 비교 분석으로 effectiveness 순서와 speedup bound를 최초로 정식화.
한계·조건
- 모델 — Claude Opus 4.6과 GPT-5.4 두 모델로만 실험, 다른 모델로의 일반화는 추가 검증 필요.
- 토폴로지 — Chain, Tree, Graph 세 가지 토폴로지에서 테스트했지만, 최적 파이프라인 깊이는 topology별로 달라질 수 있음.
- 코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
편집자 한 줄
step-level scaling law 발견이 흥미롭습니다. agent 수 scaling과 직교하는 새로운 축으로, multi-agent 시스템 설계에 실용적 통찰을 줍니다.
- #multi-agent
- #reasoning
- #streaming
- #latency
- #pipeline
Zhen Yang