Papers·2일 전
Stanford DeLM: 분산형 멀티 에이전트로 SWE-bench 10.5%p 향상, 비용 50% 절감

Stanford 팀이 중앙 제어 없이 에이전트들이 비동기로 작업을 나눠 처리하는 Decentralized Language Models(DeLM)을 제안했습니다. 공유 컨텍스트와 태스크 큐를 통해 각 에이전트가 독립적으로 진행 상황을 읽고 검증된 업데이트를 쓰는 방식으로, SWE-bench Verified에서 최대 10.5%p 향상과 비용 50% 절감을 달성했습니다. LongBench-v2 Multi-Doc QA에서도 최대 5.7%p 개선했으며, 코드는 공개되었습니다.
Stanford 팀이 중앙 오케스트레이터 없이 에이전트들이 비동기로 협력하는 DeLM 프레임워크를 공개했습니다.
핵심 결론
- SWE-bench — Avg.@1, Pass@2, Pass@4에서 최대 10.5%p 향상, 비용은 약 50% 감소.
- LongBench — Multi-Doc QA에서 4개 모델 패밀리 평균 정확도 최대 5.7%p 개선.
방법
- 분산 구조 — 중앙 컨트롤러 없이 공유 검증 컨텍스트와 태스크 큐로 에이전트들이 비동기로 작업을 클레임하고 진행 상황을 읽고 검증된 업데이트를 씁니다.
- 각 에이전트는 독립적으로 추론하고 결과를 공유 컨텍스트에 쓰기 때문에 통신 병목이 사라집니다.
한계·조건
- 환경 — 벤치마크 결과는 특정 태스크(소프트웨어 엔지니어링, 긴 문맥 QA)에 국한되며, 다른 도메인 일반화는 추가 검증이 필요합니다.
- 코드 — 프로젝트 웹사이트에서 코드 공개 완료.
편집자 한 줄
분산 구조 덕분에 확장성이 좋아 보이지만, 에이전트 간 검증 메커니즘의 오버헤드가 어느 정도인지 궁금하네요.
- #multi-agent
- #decentralized
- #swe-bench
- #stanford
Stanford University