Papers·1개월 전

SearchSwarm-30B-A3B — 위임 지능을 SFT로 내재화한 에이전트, BrowseComp 68.1 달성

SearchSwarm 팀이 메인 에이전트가 태스크 분해와 서브에이전트 위임을 학습하는 프레임워크를 제안, 30B MoE 모델로 BrowseComp 68.1, BrowseComp-ZH 73.3을 기록했습니다. 핵심은 harness로 유도한 고품질 위임 궤적을 SFT 데이터로 활용해 위임 지능을 모델 가중치에 내재화한 점입니다. 단, 30B 규모에서의 결과이며 코드와 모델은 공개 예정입니다.

SearchSwarm 팀이 메인 에이전트의 위임 지능을 SFT로 내재화한 30B MoE 모델을 공개했습니다.

핵심 결론

벤치마크 — BrowseComp 68.1, BrowseComp-ZH 73.3 — 동급 규모 최고.
모델 — SearchSwarm-30B-A3B, MoE 구조로 30B 파라미터 중 3B 활성화.

방법

위임 지능 — harness로 태스크 분해·서브에이전트 위임·결과 통합을 유도한 궤적을 SFT 데이터로 사용.
이 궤적은 자연어 텍스트에선 얻기 어려운 위임 결정을 인코딩합니다.

한계·조건

규모 — 30B MoE 기준, 더 큰 모델과의 비교는 아직.
공개 — harness, 모델 가중치, 학습 데이터 모두 공개 예정.

편집자 한 줄

위임 지능을 별도 모듈 없이 SFT로 내재화한 점이 깔끔합니다. 다만 BrowseComp 특화 태스크인 만큼 일반 에이전트 벤치에서도 통할지 지켜볼 필요가 있네요.

#agents
#delegation
#searchswarm
#browsecomp
#sft

SearchSwarm

원문 보기 →

SearchSwarm-30B-A3B — 위임 지능을 SFT로 내재화한 에이전트, BrowseComp 68.1 달성

핵심 결론

방법

한계·조건

Comments