Papers·어제
게임 생성 벤치마크 GameCraft-Bench — 최고 성능 41.46%, 대부분 40% 미만

CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다. Godot 엔진 기반 140개 태스크로 구성되며, 최고 성능 에이전트도 41.46%에 그쳐 완전한 게임 생성이 여전히 매우 어려운 과제임을 보여줍니다. 에이전트들은 개별 메커니즘은 구현하지만 완성도·시각 피드백·일관성에서 부족함을 드러냈습니다.
CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다.
핵심 결론
- 벤치마크 — Godot 엔진 기반 140개 태스크, 15개 게임 패밀리로 구성.
- 최고 성능 — 가장 강력한 에이전트가 41.46% 달성, 대부분 40% 미만.
방법
- 평가 프레임워크 — Engine Grounding, Artifact Completeness, Interactive Verification 세 가지 기준을 제안.
- 상호작용 기반 — 재생 데모와 루브릭 기반 멀티모달 평가로 실행 가능한 게임플레이를 측정합니다.
한계·조건
- 태스크 범위 — 140개 태스크는 다양한 장르를 포함하지만 모든 게임 유형을 대표하진 않습니다.
- 코드·데이터 — 데모, 코드, 데이터는 공개되어 재현 가능합니다.
편집자 한 줄
에이전트가 개별 기능은 구현하지만 완전한 게임으로 통합하는 데 어려움을 겪는다는 점이 흥미롭네요.
- #game-generation
- #coding-agents
- #benchmark
- #godot
- #cuhk
Chinese University of Hong Kong, Shenzhen