← Back to feed
Papers·어제

Game Jam 프로젝트로 엔진 수준 게임 코드 생성 평가 — 8,133개 검증 프로젝트, 대형 프로젝트 런타임 성공률 5.7%

Game Jam 프로젝트로 엔진 수준 게임 코드 생성 평가 — 8,133개 검증 프로젝트, 대형 프로젝트 런타임 성공률 5.7%

Godot 엔진 기반 게임 코드 생성 벤치마크 JamBench와 데이터셋 JamSet을 공개했습니다. Game Jam 오픈소스 24만 개 중 8,133개 검증 프로젝트를 추출, 9개 프론티어 모델 평가 결과 프로젝트 규모가 커질수록 런타임 성공률이 80.4%에서 5.7%로 급락하는 능력 격차를 발견했습니다. 코드 에이전트는 컴파일률을 높이지만 런타임 행동 품질은 개선하지 못해, 병목이 문법이 아닌 아키텍처 설계에 있음을 시사합니다.

Game Jam 프로젝트를 활용해 Godot 엔진 기반 게임 코드 생성의 첫 번째 프로젝트 수준 벤치마크를 구축했습니다.

핵심 결론

  • 벤치마크JamBench는 300개 수동 검증 프로젝트로, 테마 기반 생성과 코드 완성 태스크를 정의합니다.
  • 평가 결과소형 프로젝트 런타임 성공률 80.4%에서 대형 프로젝트 5.7%로 급감 — 프론티어 모델 간 능력 격차가 명확합니다.
  • 코드 에이전트는 컴파일률을 높이지만 런타임 행동 품질(BAS) 개선에는 실패, 병목이 아키텍처 설계에 있음을 보여줍니다.

방법

  • 데이터 수집Godot 엔진의 텍스트 기반 포맷과 헤드리스 실행 모드를 활용해 파일 무결성부터 런타임 동작까지 검증 파이프라인을 설계했습니다.
  • 규모24만 개 이상 저장소에서 8,133개 검증 프로젝트를 추출, 그중 300개를 수동 검증해 JamBench 구성.
  • 평가 지표컴파일 통과율, Structural Completeness Score(SCS), Behavioral Alignment Score(BAS) 3단계 파이프라인.

한계·조건

  • 엔진 특화Godot 엔진에 한정 — Unity/Unreal 등 다른 엔진으로 일반화는 추가 작업 필요.
  • 태스크 범위테마 기반 생성과 코드 완성 태스크로 제한, 전체 게임 개발 파이프라인을 포괄하지 않습니다.
  • 공개모든 데이터와 코드는 공개되어 재현 가능합니다.

편집자 한 줄

프로젝트 규모에 따른 성능 격차가 선명하게 드러난 점이 인상적입니다. 코드 에이전트가 '짜기'는 잘하지만 '설계'는 못 한다는 해석은 앞으로의 연구 방향을 잘 짚어줍니다.

  • #game-code-generation
  • #godot
  • #benchmark
  • #dataset
  • #code-agents
Jianwen Sun
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —