← Back to feed
Papers·3일 전

Bayesian-Agent: 스킬과 SOP를 사후 확률로 관리하는 에이전트 프레임워크 — SOP-Bench 80→95%

Bayesian-Agent: 스킬과 SOP를 사후 확률로 관리하는 에이전트 프레임워크 — SOP-Bench 80→95%

IDEA FinAI 팀이 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 Bayesian-Agent 프레임워크를 공개했습니다. 재사용 가능한 스킬을 '프롬프트+컨텍스트 조건에서 모델이 성공할지'에 대한 가설로 보고, 검증된 궤적 증거를 바탕으로 범주형 사후 분포를 유지하며 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션을 취합니다. DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%로 개선되었습니다. 단, 모든 백엔드(GenericAgent, mini-swe-agent, Claude Code)에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과도 보고되었습니다.

IDEA FinAI가 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 프레임워크를 제안했습니다.

핵심 결론

  • 벤치DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%.
  • 백엔드네이티브 백엔드 외에 GenericAgent, mini-swe-agent, Claude Code 백엔드에서도 평가했으며, 일부는 긍정적, 일부는 포화 또는 부정적 결과.

방법

  • 가설 관리재사용 가능한 스킬과 SOP를 '프롬프트·컨텍스트·하네스 환경에서 모델이 성공할지'에 대한 가설로 취급.
  • 사후 업데이트검증된 궤적 증거를 기록하고, 각 스킬에 대해 feature-conditioned categorical posterior 를 유지.
  • 액션사후 상태를 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션으로 매핑.
  • 모델 페이싱 프롬프트에 실행 가능한 가드레일과 실패 모드 패치를 적용하고, 사후 요약은 감사 가능.

한계·조건

  • 백엔드 의존성모든 백엔드에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과.
  • 코드소스 코드는 GitHub에 공개 (https://github.com/DataArcTech/Bayesian-Agent).

편집자 한 줄

스킬 진화를 '보정되지 않은 프롬프트 축적'이 아닌 '사후 기반 하네스 최적화'로 보는 관점이 흥미롭습니다. 다만 백엔드별 편차가 있어 일반화 가능성은 더 확인이 필요해 보입니다.

  • #bayesian-agent
  • #llm-agent
  • #skill-evolution
  • #sop
  • #ideafinai
IDEA FinAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —