Papers·3일 전
SWE-WebDev Bench: AI 앱 빌더 7개 평가 — 68개 메트릭, 보안 점수 65% 미만

Vibe coding 플랫폼(자연어로 앱 생성)을 종합 평가하는 SWE-WebDev Bench가 공개됐습니다. 25개 주 메트릭과 43개 진단 메트릭으로 6개 플랫폼을 평가한 결과, 모든 플랫폼이 엔지니어링 품질 60% 미만, 보안 점수 65% 미만, 동시성 처리 6% 수준으로 나타났습니다. 특히 요구사항이 단순 기술 계획으로 압축되는 명세 병목, 프론트엔드와 백엔드의 분리, 운영 준비도의 급격한 하락이 주요 문제로 지적됐습니다. 코드와 벤치마크는 공개됐으나, 샘플 규모가 작아 일반화에는 추가 검증이 필요합니다.
- #vibe-coding
- #benchmark
- #ai-agents
- #software-engineering
- #security
QwikBuild