Papers·1개월 전

ToolMaze: LLM 도구 사용 추론의 오류 복구 능력 평가 — 암묵적 실패에서 성능 37% 하락

Baidu 연구팀이 LLM의 도구 사용 추론(TIR)에서 실제 환경의 도구 오류를 반영한 벤치마크 ToolMaze를 공개했습니다. DAG 기반 위상 복잡도와 도구 교란 유형(명시적/암묵적, 일시적/영구적)을 2x2로 분류해 평가한 결과, 암묵적 의미 실패에서 복구율(PRR)이 37% 급감했으며, 복잡한 위상에서는 무의미한 시행착오에 빠지는 현상이 관찰되었습니다. 모델 규모 증가에 따른 내결함성 개선 속도는 기본 태스크 실행의 3.66배에 불과해, 동적 재계획이 스케일링이나 프롬프트만으로 해결되지 않는 별개의 병목임을 보여줍니다.

기존 TIR 벤치마크는 도구 오류가 없는 이상적인 경로만 평가했지만, ToolMaze는 실제 환경의 다양한 도구 오류를 체계적으로 평가합니다.

핵심 결론

벤치 — DAG 기반 위상 복잡도(4단계)와 2x2 교란 분류(명시적/암묵적, 일시적/영구적)로 구성.
성능 — 암묵적 의미 실패에서 PRR이 평균 37% 하락, 복잡한 위상에서는 시행착오 루프에 갇히는 현상.
스케일링 — 모델 크기 증가에 따른 내결함성 개선 속도는 기본 실행의 3.66배 느림.

방법

2D 설계 — 위상 복잡도는 DAG의 노드 수와 분기로, 교란은 명시적/암묵적, 일시적/영구적 조합으로 분류.
지표 — Perturbation Recovery Rate (PRR) — 교란 후 올바른 경로로 복구하는 비율.
암묵적 교란(예: 도구 출력이 의미적으로 틀린 경우)이 명시적 교란(예: 도구 사용 불가)보다 복구에 더 큰 영향을 줍니다.

한계·조건

범위 — 벤치마크는 특정 도구 집합과 태스크에 국한되며, 실제 환경의 모든 오류 유형을 포괄하지는 않습니다.
재현성 — 데이터와 코드는 GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

동적 재계획이 모델 스케일링만으로 해결되지 않는다는 점은, 향후 에이전트 학습이나 디코딩 전략 연구에 중요한 방향을 제시합니다.

#tool-use
#reasoning
#benchmark
#baidu
#llm

BAIDU

원문 보기 →

ToolMaze: LLM 도구 사용 추론의 오류 복구 능력 평가 — 암묵적 실패에서 성능 37% 하락

핵심 결론

방법

한계·조건

Comments