Papers·1개월 전

IBM Research, 소형 LM의 도구 사용을 진화적 탐색으로 개선 — MCP-Bench 실행 가능성 3%→17~24%

IBM Research 팀이 소형 언어 모델이 MCP 스타일 도구를 사용할 때 발생하는 계획 실패를 복구하는 추론-시간 진화 탐색 방법 Evoflux를 제안했습니다. 기존 SFT나 DPO로는 3% 수준에 머물던 실행 가능성을 17~24%로 끌어올렸으며, ReAct보다 낮은 분산과 토큰 비용으로 더 안정적인 성능을 보였습니다. 단, 250개 도구와 MCP 서버 환경에 국한된 결과로, 더 큰 규모에서의 일반화는 추가 검증이 필요합니다.

IBM Research가 소형 LM의 도구 사용 실패를 복구하는 추론-시간 진화 탐색 방법 Evoflux를 공개했습니다.

핵심 결론

태스크 — MCP-Bench (250개 도구, 라이브 MCP 서버)에서 소형 LM의 도구 실행 계획 복구.
성능 — 실행 가능성(execution feasibility)을 기존 3%에서 17~24%로 향상.
비교 — SFT, SFT+DPO는 제로샷 이하로 붕괴; ReAct는 더 높은 피크를 보이나 분산과 토큰 비용이 큼.

방법

진화 탐색 — Evoflux는 추론 시점에 typed workflow graph를 구조적 편집, 실행 피드백, 적응형 강도, 메타-가이드 재설계, 다양성 정리를 통해 진화시킵니다.
핵심 직관 — 소형 LM은 소수의 교사 궤적(teacher trace)으로 워크플로 포맷은 배울 수 있지만, 변화하는 도구 카탈로그에 대응하는 복구 행동은 학습하지 못합니다. 실행-기반 탐색이 이 문제를 해결합니다.

한계·조건

환경 — 평가는 MCP-Bench의 250개 도구와 라이브 MCP 서버로 제한됨.
데이터 — 교사 궤적은 수백 개 수준으로 적은 예산에서 실험.
일반화 — 더 큰 규모의 도구 카탈로그나 다른 도메인에서의 성능은 아직 확인되지 않음.

편집자 한 줄

소형 LM의 실용적 도구 사용을 위해 추론 비용을 희생하는 전략은 흥미롭지만, 실제 배포에서의 지연 시간과의 트레이드오프를 고려해야 할 점입니다.

#ibm-research
#tool-use
#small-lm
#evolutionary-search
#mcp

IBM Research

원문 보기 →

IBM Research, 소형 LM의 도구 사용을 진화적 탐색으로 개선 — MCP-Bench 실행 가능성 3%→17~24%

핵심 결론

방법

한계·조건

Comments