Papers·4일 전
LLM이 도구 호출 시점을 스스로 판단하게 하라 — Probe&Prefill로 불필요한 호출 48% 감소
When2Tool 벤치마크로 LLM 에이전트의 불필요한 도구 호출 문제를 분석한 결과, 모델의 hidden state에서 도구 필요성을 선형 분류기로 0.89–0.96 AUROC로 디코딩 가능하지만 생성 과정에서 이를 무시하는 것으로 나타났습니다. 이에 저자들은 경량 linear probe로 hidden state 신호를 읽어 응답 앞에 steering 문장을 삽입하는 Probe&Prefill을 제안, 정확도 1.7% 손실만으로 도구 호출을 48% 줄였습니다. 단, 벤치마크는 18개 환경으로 제한되며 multi-hop 태스크에서의 효과는 추가 검증이 필요합니다.
- #llm
- #tool-use
- #benchmark
- #probing
- #efficiency
Chung-En Sun