Papers·1개월 전

Bayesian-Agent: 스킬과 SOP를 사후 확률로 관리하는 에이전트 프레임워크 — SOP-Bench 80→95%

IDEA FinAI 팀이 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 Bayesian-Agent 프레임워크를 공개했습니다. 재사용 가능한 스킬을 '프롬프트+컨텍스트 조건에서 모델이 성공할지'에 대한 가설로 보고, 검증된 궤적 증거를 바탕으로 범주형 사후 분포를 유지하며 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션을 취합니다. DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%로 개선되었습니다. 단, 모든 백엔드(GenericAgent, mini-swe-agent, Claude Code)에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과도 보고되었습니다.

IDEA FinAI가 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 프레임워크를 제안했습니다.

핵심 결론

벤치 — DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%.
백엔드 — 네이티브 백엔드 외에 GenericAgent, mini-swe-agent, Claude Code 백엔드에서도 평가했으며, 일부는 긍정적, 일부는 포화 또는 부정적 결과.

방법

가설 관리 — 재사용 가능한 스킬과 SOP를 '프롬프트·컨텍스트·하네스 환경에서 모델이 성공할지'에 대한 가설로 취급.
사후 업데이트 — 검증된 궤적 증거를 기록하고, 각 스킬에 대해 feature-conditioned categorical posterior 를 유지.
액션 — 사후 상태를 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션으로 매핑.
모델 페이싱 프롬프트에 실행 가능한 가드레일과 실패 모드 패치를 적용하고, 사후 요약은 감사 가능.

한계·조건

백엔드 의존성 — 모든 백엔드에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과.
코드 — 소스 코드는 GitHub에 공개 (https://github.com/DataArcTech/Bayesian-Agent).

편집자 한 줄

스킬 진화를 '보정되지 않은 프롬프트 축적'이 아닌 '사후 기반 하네스 최적화'로 보는 관점이 흥미롭습니다. 다만 백엔드별 편차가 있어 일반화 가능성은 더 확인이 필요해 보입니다.

#bayesian-agent
#llm-agent
#skill-evolution
#sop
#ideafinai

IDEA FinAI

원문 보기 →

Bayesian-Agent: 스킬과 SOP를 사후 확률로 관리하는 에이전트 프레임워크 — SOP-Bench 80→95%

핵심 결론

방법

한계·조건

Comments