← Back to feed
Papers·2일 전

Stanford DeLM: 분산형 멀티 에이전트로 SWE-bench 10.5%p 향상, 비용 50% 절감

Stanford DeLM: 분산형 멀티 에이전트로 SWE-bench 10.5%p 향상, 비용 50% 절감

Stanford 팀이 중앙 제어 없이 에이전트들이 비동기로 작업을 나눠 처리하는 Decentralized Language Models(DeLM)을 제안했습니다. 공유 컨텍스트와 태스크 큐를 통해 각 에이전트가 독립적으로 진행 상황을 읽고 검증된 업데이트를 쓰는 방식으로, SWE-bench Verified에서 최대 10.5%p 향상과 비용 50% 절감을 달성했습니다. LongBench-v2 Multi-Doc QA에서도 최대 5.7%p 개선했으며, 코드는 공개되었습니다.

Stanford 팀이 중앙 오케스트레이터 없이 에이전트들이 비동기로 협력하는 DeLM 프레임워크를 공개했습니다.

핵심 결론

  • SWE-benchAvg.@1, Pass@2, Pass@4에서 최대 10.5%p 향상, 비용은 약 50% 감소.
  • LongBenchMulti-Doc QA에서 4개 모델 패밀리 평균 정확도 최대 5.7%p 개선.

방법

  • 분산 구조중앙 컨트롤러 없이 공유 검증 컨텍스트와 태스크 큐로 에이전트들이 비동기로 작업을 클레임하고 진행 상황을 읽고 검증된 업데이트를 씁니다.
  • 각 에이전트는 독립적으로 추론하고 결과를 공유 컨텍스트에 쓰기 때문에 통신 병목이 사라집니다.

한계·조건

  • 환경벤치마크 결과는 특정 태스크(소프트웨어 엔지니어링, 긴 문맥 QA)에 국한되며, 다른 도메인 일반화는 추가 검증이 필요합니다.
  • 코드프로젝트 웹사이트에서 코드 공개 완료.

편집자 한 줄

분산 구조 덕분에 확장성이 좋아 보이지만, 에이전트 간 검증 메커니즘의 오버헤드가 어느 정도인지 궁금하네요.

  • #multi-agent
  • #decentralized
  • #swe-bench
  • #stanford
Stanford University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —