← Back to feed
Papers·3일 전

SWE-WebDev Bench: AI 앱 빌더 7개 평가 — 68개 메트릭, 보안 점수 65% 미만

SWE-WebDev Bench: AI 앱 빌더 7개 평가 — 68개 메트릭, 보안 점수 65% 미만

Vibe coding 플랫폼(자연어로 앱 생성)을 종합 평가하는 SWE-WebDev Bench가 공개됐습니다. 25개 주 메트릭과 43개 진단 메트릭으로 6개 플랫폼을 평가한 결과, 모든 플랫폼이 엔지니어링 품질 60% 미만, 보안 점수 65% 미만, 동시성 처리 6% 수준으로 나타났습니다. 특히 요구사항이 단순 기술 계획으로 압축되는 명세 병목, 프론트엔드와 백엔드의 분리, 운영 준비도의 급격한 하락이 주요 문제로 지적됐습니다. 코드와 벤치마크는 공개됐으나, 샘플 규모가 작아 일반화에는 추가 검증이 필요합니다.

QwikBuild

Comments

— 첫 댓글을 남겨보세요 —