Papers·1개월 전

SaaSBench — 엔터프라이즈 SaaS 환경에서 AI 코딩 에이전트 평가, 30개 태스크 중 95% 실패는 시스템 통합 단계에서 발생

SaaSBench는 엔터프라이즈 SaaS 시스템의 복잡성을 반영한 최초의 벤치마크로, 6개 도메인 30개 태스크에 8개 언어·6개 DB·13개 프레임워크를 포함합니다. 실험 결과 최신 에이전트의 주 병목은 코드 생성이 아닌 다중 컴포넌트 통합 및 설정이며, 95% 이상의 실패가 비즈니스 로직 진입 전 시스템 기반 설정 단계에서 발생했습니다. 코드는 공개되었습니다.

#coding-agents
#benchmark
#saas
#software-engineering

Qingnan Ren

원문 보기 →

SaaSBench — 엔터프라이즈 SaaS 환경에서 AI 코딩 에이전트 평가, 30개 태스크 중 95% 실패는 시스템 통합 단계에서 발생

Comments