Papers·1개월 전

게임 생성 벤치마크 GameCraft-Bench — 최고 성능 41.46%, 대부분 40% 미만

CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다. Godot 엔진 기반 140개 태스크로 구성되며, 최고 성능 에이전트도 41.46%에 그쳐 완전한 게임 생성이 여전히 매우 어려운 과제임을 보여줍니다. 에이전트들은 개별 메커니즘은 구현하지만 완성도·시각 피드백·일관성에서 부족함을 드러냈습니다.

CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다.

핵심 결론

벤치마크 — Godot 엔진 기반 140개 태스크, 15개 게임 패밀리로 구성.
최고 성능 — 가장 강력한 에이전트가 41.46% 달성, 대부분 40% 미만.

방법

평가 프레임워크 — Engine Grounding, Artifact Completeness, Interactive Verification 세 가지 기준을 제안.
상호작용 기반 — 재생 데모와 루브릭 기반 멀티모달 평가로 실행 가능한 게임플레이를 측정합니다.

한계·조건

태스크 범위 — 140개 태스크는 다양한 장르를 포함하지만 모든 게임 유형을 대표하진 않습니다.
코드·데이터 — 데모, 코드, 데이터는 공개되어 재현 가능합니다.

편집자 한 줄

에이전트가 개별 기능은 구현하지만 완전한 게임으로 통합하는 데 어려움을 겪는다는 점이 흥미롭네요.

#game-generation
#coding-agents
#benchmark
#godot
#cuhk

Chinese University of Hong Kong, Shenzhen

원문 보기 →

게임 생성 벤치마크 GameCraft-Bench — 최고 성능 41.46%, 대부분 40% 미만

핵심 결론

방법

한계·조건

Comments