Papers·3일 전
Bayesian-Agent: 스킬과 SOP를 사후 확률로 관리하는 에이전트 프레임워크 — SOP-Bench 80→95%

IDEA FinAI 팀이 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 Bayesian-Agent 프레임워크를 공개했습니다. 재사용 가능한 스킬을 '프롬프트+컨텍스트 조건에서 모델이 성공할지'에 대한 가설로 보고, 검증된 궤적 증거를 바탕으로 범주형 사후 분포를 유지하며 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션을 취합니다. DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%로 개선되었습니다. 단, 모든 백엔드(GenericAgent, mini-swe-agent, Claude Code)에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과도 보고되었습니다.
IDEA FinAI가 LLM 에이전트의 스킬과 SOP를 베이지안 사후 확률로 관리하는 프레임워크를 제안했습니다.
핵심 결론
- 벤치 — DeepSeek-v4-flash 기준 SOP-Bench 80→95%, Lifelong AgentBench 90→100%, RealFin-Bench 45→65%.
- 백엔드 — 네이티브 백엔드 외에 GenericAgent, mini-swe-agent, Claude Code 백엔드에서도 평가했으며, 일부는 긍정적, 일부는 포화 또는 부정적 결과.
방법
- 가설 관리 — 재사용 가능한 스킬과 SOP를 '프롬프트·컨텍스트·하네스 환경에서 모델이 성공할지'에 대한 가설로 취급.
- 사후 업데이트 — 검증된 궤적 증거를 기록하고, 각 스킬에 대해 feature-conditioned categorical posterior 를 유지.
- 액션 — 사후 상태를 패치·분할·압축·은퇴·탐색 등의 인스펙터블 액션으로 매핑.
- 모델 페이싱 프롬프트에 실행 가능한 가드레일과 실패 모드 패치를 적용하고, 사후 요약은 감사 가능.
한계·조건
- 백엔드 의존성 — 모든 백엔드에서 일관된 개선이 관찰된 것은 아니며, 일부 설정에서는 포화 또는 부정적 결과.
- 코드 — 소스 코드는 GitHub에 공개 (https://github.com/DataArcTech/Bayesian-Agent).
편집자 한 줄
스킬 진화를 '보정되지 않은 프롬프트 축적'이 아닌 '사후 기반 하네스 최적화'로 보는 관점이 흥미롭습니다. 다만 백엔드별 편차가 있어 일반화 가능성은 더 확인이 필요해 보입니다.
- #bayesian-agent
- #llm-agent
- #skill-evolution
- #sop
- #ideafinai
IDEA FinAI