Papers·어제
Game Jam 프로젝트로 엔진 수준 게임 코드 생성 평가 — 8,133개 검증 프로젝트, 대형 프로젝트 런타임 성공률 5.7%

Godot 엔진 기반 게임 코드 생성 벤치마크 JamBench와 데이터셋 JamSet을 공개했습니다. Game Jam 오픈소스 24만 개 중 8,133개 검증 프로젝트를 추출, 9개 프론티어 모델 평가 결과 프로젝트 규모가 커질수록 런타임 성공률이 80.4%에서 5.7%로 급락하는 능력 격차를 발견했습니다. 코드 에이전트는 컴파일률을 높이지만 런타임 행동 품질은 개선하지 못해, 병목이 문법이 아닌 아키텍처 설계에 있음을 시사합니다.
Game Jam 프로젝트를 활용해 Godot 엔진 기반 게임 코드 생성의 첫 번째 프로젝트 수준 벤치마크를 구축했습니다.
핵심 결론
- 벤치마크 — JamBench는 300개 수동 검증 프로젝트로, 테마 기반 생성과 코드 완성 태스크를 정의합니다.
- 평가 결과 — 소형 프로젝트 런타임 성공률 80.4%에서 대형 프로젝트 5.7%로 급감 — 프론티어 모델 간 능력 격차가 명확합니다.
- 코드 에이전트는 컴파일률을 높이지만 런타임 행동 품질(BAS) 개선에는 실패, 병목이 아키텍처 설계에 있음을 보여줍니다.
방법
- 데이터 수집 — Godot 엔진의 텍스트 기반 포맷과 헤드리스 실행 모드를 활용해 파일 무결성부터 런타임 동작까지 검증 파이프라인을 설계했습니다.
- 규모 — 24만 개 이상 저장소에서 8,133개 검증 프로젝트를 추출, 그중 300개를 수동 검증해 JamBench 구성.
- 평가 지표 — 컴파일 통과율, Structural Completeness Score(SCS), Behavioral Alignment Score(BAS) 3단계 파이프라인.
한계·조건
- 엔진 특화 — Godot 엔진에 한정 — Unity/Unreal 등 다른 엔진으로 일반화는 추가 작업 필요.
- 태스크 범위 — 테마 기반 생성과 코드 완성 태스크로 제한, 전체 게임 개발 파이프라인을 포괄하지 않습니다.
- 공개 — 모든 데이터와 코드는 공개되어 재현 가능합니다.
편집자 한 줄
프로젝트 규모에 따른 성능 격차가 선명하게 드러난 점이 인상적입니다. 코드 에이전트가 '짜기'는 잘하지만 '설계'는 못 한다는 해석은 앞으로의 연구 방향을 잘 짚어줍니다.
- #game-code-generation
- #godot
- #benchmark
- #dataset
- #code-agents
Jianwen Sun