Papers·1개월 전

TreeSeeker: 브랜치-앤-리턴 제어로 딥 서치 성능 개선 — XBench-DeepSearch 등 3개 벤치에서 오픈소스 대비 우위

Zhuofan Shi 팀이 다단계 웹 검색을 트리 구조로 조직하는 TreeSeeker를 제안했습니다. 각 서브-골을 브랜치로 두고, UCB 신호(가치·불확실성·위험)로 탐색·활용·가지치기를 결정하는 방식입니다. XBench-DeepSearch, BrowseComp, BrowseComp-ZH에서 오픈소스 베이스라인 대비 일관된 개선을 보였습니다. 단, inference-time 프레임워크라 추가 compute가 필요하다는 점이 한계입니다.

딥 서치 에이전트가 여러 방향 중 일부만 신뢰할 만한 증거로 이어질 때, 탐색과 활용 사이의 균형을 잡는 프레임워크 TreeSeeker가 공개되었습니다.

핵심 결론

벤치 — XBench-DeepSearch, BrowseComp, BrowseComp-ZH 세 벤치에서 오픈소스 베이스라인 대비 일관된 성능 향상.
방식 — 탐욕적 추적이나 무분별한 탐색 대신, 브랜치-앤-리턴 제어로 예산을 효율적으로 씁니다.

방법

트리 구조 — 각 서브-골을 브랜치로 표현하고, TreeMem이 증거·불확실성·충돌·진행·실패 큐를 브랜치에 붙여 관리합니다.
의사결정 — 매 라운드마다 UCB 신호(가치·불확실성·위험)로 유망 브랜치 활용, 불확실한 대안 탐색, 비생산적 브랜치 가지치기 중 하나를 선택합니다.

한계·조건

리소스 — Inference-time 프레임워크라 추가 compute가 필요하며, 단일 GPU 환경에서의 효율은 검증되지 않았습니다.
코드 — 현재 논문과 figure만 공개, 코드는 추후 공개 예정입니다.

편집자 한 줄

강력한 추론·도구 실행과 직교하는 제어 전략이라는 점이 흥미롭습니다. 다만 벤치가 모두 웹 검색 태스크라, 다른 도메인으로의 일반화는 추가 실험이 필요해 보입니다.

#deep-search
#tree-search
#web-agents
#inference-time

Zhuofan Shi

원문 보기 →

TreeSeeker: 브랜치-앤-리턴 제어로 딥 서치 성능 개선 — XBench-DeepSearch 등 3개 벤치에서 오픈소스 대비 우위

핵심 결론

방법

한계·조건

Comments