Papers·1개월 전

SlimSearcher: 정확도 유지하며 tool call 17~58% 줄인 deep research 에이전트

Zequn Xie 연구팀이 deep research 에이전트의 tool call 횟수를 17~58% 줄이면서 정확도를 유지하는 SlimSearcher 프레임워크를 제안했습니다. SFT 단계에서는 Pareto 효율 필터링으로 성공적이면서도 경제적인 궤적만 학습하고, RL 단계에서는 Adaptive Reward Gating으로 상대적 효율을 보상에 반영해 불필요한 추론 경로를 억제합니다. GAIA, BrowseComp, XBenchDeepSearch 벤치마크에서 평균 tool call을 17~58% 절감했으며, 정확도는 유지하거나 소폭 개선되었습니다.

Zequn Xie 연구팀이 deep research 에이전트의 tool call을 17~58% 줄이면서 정확도를 유지하는 SlimSearcher 프레임워크를 공개했습니다.

핵심 결론

벤치마크 — GAIA, BrowseComp, XBenchDeepSearch에서 평균 tool call 17~58% 감소, 정확도 유지 또는 소폭 개선.
효과 — 기존 brute-force 전략 대비 token 소모도 크게 줄였습니다.

방법

SFT 단계 — Pareto-efficient filtration으로 성공적이면서도 tool call이 적은 궤적만 선별해 학습.
RL 단계 — Adaptive Reward Gating: cohort 내 상대적 tool/token 효율을 보상에 반영, 절대적 패널티의 brevity bias를 회피.
정확도 게이트를 먼저 통과한 후에만 효율 보상이 적용되어 reward hacking을 방지합니다.

한계·조건

환경 — 실험은 특정 모델(공개 안 됨)과 벤치마크에 국한, 일반화 가능성은 추가 검증 필요.
코드 — 현재 코드는 공개되지 않았습니다.

편집자 한 줄

효율과 정확도의 Pareto frontier를 SFT+RL 양쪽에서 건드린 점이 깔끔합니다. 다만 실제 서비스 환경에서의 지연 시간 개선까지 이어질지는 더 봐야겠네요.

#deep-research
#efficiency
#reinforcement-learning
#tool-use

Zequn Xie

원문 보기 →

SlimSearcher: 정확도 유지하며 tool call 17~58% 줄인 deep research 에이전트

핵심 결론

방법

한계·조건

Comments