Papers·2일 전
PlanBench-XL: LLM 에이전트, 1,665개 툴 환경에서 계획 수립 실패 — GPT-5.4도 장애 대응 시 11%로 급락

UIUC 팀이 1,665개 툴과 327개 소매 태스크로 구성된 PlanBench-XL 벤치마크를 공개했습니다. 장애 없는 환경에서 GPT-5.4가 51.90% 정확도를 기록했지만, 툴 누락·실패·혼란을 시뮬레이션하는 최악 조건에서는 11.36%로 급락합니다. 에이전트가 명시적 오류 신호 없이 회복해야 하거나 긴 대체 툴 체인이 필요한 상황에서 특히 취약하다는 점이 드러났습니다.
UIUC 팀이 1,665개 툴 환경에서 LLM 에이전트의 계획 수립 능력을 평가하는 PlanBench-XL 벤치마크를 제안했습니다.
핵심 결론
- 벤치 — 327개 소매 태스크, 1,665개 툴 — 에이전트는 관련 툴을 검색·호출하며 중간 증거를 수집해 최종 목표에 도달해야 합니다.
- 최고 성능 — 장애 없는 환경에서 GPT-5.4가 51.90% 정확도로 가장 높았습니다.
- 장애 시 — 최악 차단 조건에서 GPT-5.4는 11.36%로 급락 — 에이전트의 적응 계획이 아직 취약함을 보여줍니다.
방법
- 차단 메커니즘 — 툴 누락·실패·혼란을 시뮬레이션하는 선택적 차단 기능으로 실제 환경의 불확실성을 모사합니다.
- 평가 방식 — 에이전트는 고정된 툴 목록 없이 검색을 통해 툴을 찾아야 하며, 중간 결과를 바탕으로 다음 호출을 결정합니다.
한계·조건
- 도메인 — 소매 태스크에 특화되어 있어 일반적 추론 능력 평가로 확장하기 어렵습니다.
- 재현성 — 벤치마크는 Hugging Face에 공개 예정 — 현재는 논문과 데이터셋 설명만 제공됩니다.
- 리소스 — GPT-5.4 등 상용 모델 평가에는 API 비용이 크게 소요됩니다.
편집자 한 줄
장애 대응 능력을 정량적으로 측정한 점은 유용하지만, 실제 환경의 복잡성을 완전히 담아내지는 못할 수 있습니다.
- #llm-agents
- #planning
- #benchmark
- #tool-use
- #uiuc
University of Illinois at Urbana-Champaign