Papers·2주 전
SAP, LLM 도구 검색의 지식-검색 괴리 진단 프레임워크 ToolSense 공개

SAP 연구진이 LLM 기반 에이전트의 도구 검색 성능을 진단하는 오픈소스 프레임워크 ToolSense를 공개했습니다. 기존 ToolBench 벤치마크에서는 높은 성능을 보이던 파라메트릭 도구 검색 모델이, 실제적인 모호한 질의에서는 최대 64%p 성능이 하락하고 사실 탐침에서 무작위 수준에 그치는 '지식-검색 괴리'를 발견했습니다. ToolSense는 3단계 모호성의 현실적 검색 벤치마크(RRB), MCQ/QA 탐침 벤치마크를 자동 생성하며, GitHub에 공개되었습니다.
SAP 팀이 LLM 에이전트의 도구 검색이 실제로는 제대로 작동하지 않을 수 있음을 진단하는 프레임워크를 내놓았습니다.
핵심 결론
- 문제 — 기존 ToolBench 벤치마크는 완전히 명시된 질의와 제약된 디코딩으로 평가해 모델의 실제 도구 이해도를 반영하지 못합니다.
- 발견 — 파라메트릭 도구 검색 모델은 RRB(모호한 질의)에서 최대 64%p 성능 하락, 사실 탐침에서는 거의 무작위 수준을 보여 지식-검색 괴리가 확인되었습니다.
- 공개 — ToolSense 프레임워크와 ToolBench 진단 벤치마크를 GitHub에 오픈소스로 공개했습니다.
방법
- ToolSense — 임의의 도구 카탈로그를 입력받아 세 가지 벤치마크(RRB, MCQ 탐침, QA 탐침)를 자동 생성하는 LLM 기반 진단 프레임워크입니다.
- RRB — 현실적 검색 벤치마크로, 질의를 3단계 모호성(명시적/중간/모호)으로 나누어 평가합니다.
- 탐침 — MCQ와 QA 탐침으로 모델이 도구의 기능과 속성을 실제로 알고 있는지 테스트합니다.
한계·조건
- 대상 — ToolBench(~47k 도구)에 대해 5가지 파라메트릭 모델 학습 구성을 평가했습니다.
- 괴리 — 강한 검색 성능에도 불구하고 사실 탐침에서 무작위 수준인 모델이 있어, 모델이 검색만 하고 이해는 못 할 수 있습니다.
- 코드 — GitHub(https://github.com/SAP/toolsense)에 공개되어 재현 가능합니다.
편집자 한 줄
파라메트릭 검색의 실질적 한계를 지적한 점이 흥미롭습니다. 모호한 질의에서의 급격한 성능 하락은 실제 배포 시 주의가 필요해 보입니다.
- #tool-retrieval
- #llm-agent
- #benchmark
- #sap
SAP