Papers·1개월 전

GrepSeek: LLM 검색 에이전트가 셸 명령어로 코퍼스를 직접 탐색 — QA 7개 벤치 F1·EM 최고

UMass Amherst 팀이 LLM 검색 에이전트가 셸 명령어(grep 등)를 통해 코퍼스를 직접 탐색하는 GrepSeek을 공개했습니다. 기존 retriever 기반 접근과 달리, 두 단계 학습(튜터-플래너로 cold-start 궤적 생성 후 GRPO 강화학습)으로 검색 행동을 안정화했고, 분산 실행 엔진으로 셸 기반 검색을 최대 7.6배 가속합니다. 7개 오픈 도메인 QA 벤치마크에서 token-level F1과 Exact Match 모두 가장 높은 성능을 기록했으나, 표면 형태 변이가 큰 질의에서는 어휘 기반 상호작용의 한계가 드러났습니다.

UMass Amherst 연구진이 LLM 검색 에이전트가 셸 명령어로 코퍼스를 직접 탐색하는 GrepSeek을 발표했습니다.

핵심 결론

성능 — 7개 오픈 도메인 QA 벤치마크에서 token-level F1과 Exact Match 모두 기존 retriever 기반 에이전트를 능가.
가속 — 의미 보존 분산 실행 엔진으로 셸 기반 검색을 최대 7.6배 가속, 바이트 단위 정확도 유지.

방법

직접 코퍼스 상호작용 — 기존 retriever 대신 grep, find 등 셸 명령어로 코퍼스를 직접 탐색하며 증거를 수집·필터링.
2단계 학습 — 먼저 answer-aware Tutor와 answer-blind Planner로 검증된 검색 궤적을 생성해 cold-start 데이터셋을 구축한 뒤, GRPO로 정책을 미세 조정.
분산 실행 — 셸 명령어를 의미 보존 샤딩으로 병렬 실행해 검색 속도를 높임.

한계·조건

어휘 한계 — 표면 형태 변이가 큰 질의(예: 동의어, 패러프레이즈)에서는 어휘 기반 검색의 한계로 성능이 저하될 수 있음.
환경 — 대규모 코퍼스에서 셸 명령어 실행이 가능한 환경이 필요하며, retriever 기반 접근을 완전히 대체하기보다 보완적 역할.

편집자 한 줄

셸 명령어라는 단순한 도구로 retriever 없이도 경쟁력 있는 검색 에이전트를 만들 수 있다는 점이 흥미롭습니다. 다만 어휘 한계를 어떻게 극복할지가 실용화의 관건이겠네요.

#llm
#search-agent
#grepseek
#qa
#umass

University of Massachusetts Amherst

원문 보기 →

GrepSeek: LLM 검색 에이전트가 셸 명령어로 코퍼스를 직접 탐색 — QA 7개 벤치 F1·EM 최고

핵심 결론

방법

한계·조건

Comments