← Back to feed
Papers·2일 전

IBM Research, 소형 LM의 도구 사용을 진화적 탐색으로 개선 — MCP-Bench 실행 가능성 3%→17~24%

IBM Research, 소형 LM의 도구 사용을 진화적 탐색으로 개선 — MCP-Bench 실행 가능성 3%→17~24%

IBM Research 팀이 소형 언어 모델이 MCP 스타일 도구를 사용할 때 발생하는 계획 실패를 복구하는 추론-시간 진화 탐색 방법 Evoflux를 제안했습니다. 기존 SFT나 DPO로는 3% 수준에 머물던 실행 가능성을 17~24%로 끌어올렸으며, ReAct보다 낮은 분산과 토큰 비용으로 더 안정적인 성능을 보였습니다. 단, 250개 도구와 MCP 서버 환경에 국한된 결과로, 더 큰 규모에서의 일반화는 추가 검증이 필요합니다.

IBM Research가 소형 LM의 도구 사용 실패를 복구하는 추론-시간 진화 탐색 방법 Evoflux를 공개했습니다.

핵심 결론

  • 태스크MCP-Bench (250개 도구, 라이브 MCP 서버)에서 소형 LM의 도구 실행 계획 복구.
  • 성능실행 가능성(execution feasibility)을 기존 3%에서 17~24%로 향상.
  • 비교SFT, SFT+DPO는 제로샷 이하로 붕괴; ReAct는 더 높은 피크를 보이나 분산과 토큰 비용이 큼.

방법

  • 진화 탐색Evoflux는 추론 시점에 typed workflow graph를 구조적 편집, 실행 피드백, 적응형 강도, 메타-가이드 재설계, 다양성 정리를 통해 진화시킵니다.
  • 핵심 직관소형 LM은 소수의 교사 궤적(teacher trace)으로 워크플로 포맷은 배울 수 있지만, 변화하는 도구 카탈로그에 대응하는 복구 행동은 학습하지 못합니다. 실행-기반 탐색이 이 문제를 해결합니다.

한계·조건

  • 환경평가는 MCP-Bench의 250개 도구와 라이브 MCP 서버로 제한됨.
  • 데이터교사 궤적은 수백 개 수준으로 적은 예산에서 실험.
  • 일반화더 큰 규모의 도구 카탈로그나 다른 도메인에서의 성능은 아직 확인되지 않음.

편집자 한 줄

소형 LM의 실용적 도구 사용을 위해 추론 비용을 희생하는 전략은 흥미롭지만, 실제 배포에서의 지연 시간과의 트레이드오프를 고려해야 할 점입니다.

  • #ibm-research
  • #tool-use
  • #small-lm
  • #evolutionary-search
  • #mcp
IBM Research
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —