Papers·1개월 전

Harness-1: 20B 검색 에이전트, 환경 상태 메모리로 검색 recall 11.4p 향상

Chroma 팀이 환경 측 working memory를 도입한 Harness-1(20B) 검색 에이전트를 공개했습니다. 기존 정책이 transcript 위에서 모든 상태를 관리하던 것과 달리, 후보 풀, 중요도 태그, 증거 링크, 검증 기록 등을 harness가 관리하고 정책은 의미적 결정만 담당합니다. 8개 검색 벤치마크에서 평균 curated recall 0.730을 기록, 기존 오픈 검색 서브에이전트 대비 +11.4p 향상되었으며, 특히 전이 벤치마크에서 강한 일반화를 보였습니다. 코드는 GitHub에 공개되었습니다.

Chroma 팀이 검색 에이전트의 상태 관리를 환경으로 분리한 Harness-1을 제안, 20B 모델로 8개 벤치마크에서 SOTA급 recall을 달성했습니다.

핵심 결론

태스크 — 검색 에이전트 — 웹, 금융, 특허, 멀티홉 QA 등 8개 벤치마크.
성능 — 평균 curated recall 0.730, 기존 오픈 검색 서브에이전트 대비 +11.4p.
일반화 — 전이 벤치마크에서도 강한 성능, 훈련 도메인을 넘어서는 검색 행동.

방법

문제 정의 — 기존 정책은 transcript 위에서 모든 상태(본 것, 증거, 제약, 검증 여부)를 관리해야 함 — 불필요한 부담.
Harness — 환경 측 working memory: 후보 풀, 중요도 태그, 증거 링크, 검증 기록, 압축/중복 제거 관측, 예산 인식 컨텍스트 렌더링.
정책 역할 — 의미적 결정만: 무엇을 검색할지, 어떤 문서를 유지/폐기할지, 무엇을 검증할지, 언제 멈출지.
학습 — 강화학습(RL)으로 훈련, 20B 파라미터.

한계·조건

규모 — 20B 모델로, frontier 모델(>100B) 대비 경쟁력 있지만 일부 태스크에서는 뒤처짐.
벤치마크 — 8개 벤치마크 모두 영어 기반, 다국어 일반화는 미확인.
코드 — GitHub에 공개, 재현 가능.

편집자 한 줄

상태 관리를 환경으로 분리한 설계가 단순하면서도 효과적이라, 향후 검색 에이전트의 표준 패턴이 될 가능성이 있어 보입니다.

#search-agent
#reinforcement-learning
#chroma
#retrieval
#state-management

chroma

원문 보기 →

Harness-1: 20B 검색 에이전트, 환경 상태 메모리로 검색 recall 11.4p 향상

핵심 결론

방법

한계·조건

Comments