← Back to feed
Papers·어제

게임 생성 벤치마크 GameCraft-Bench — 최고 성능 41.46%, 대부분 40% 미만

게임 생성 벤치마크 GameCraft-Bench — 최고 성능 41.46%, 대부분 40% 미만

CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다. Godot 엔진 기반 140개 태스크로 구성되며, 최고 성능 에이전트도 41.46%에 그쳐 완전한 게임 생성이 여전히 매우 어려운 과제임을 보여줍니다. 에이전트들은 개별 메커니즘은 구현하지만 완성도·시각 피드백·일관성에서 부족함을 드러냈습니다.

CUHK(Shenzhen) 팀이 게임 생성 에이전트 평가를 위한 벤치마크 GameCraft-Bench를 공개했습니다.

핵심 결론

  • 벤치마크Godot 엔진 기반 140개 태스크, 15개 게임 패밀리로 구성.
  • 최고 성능가장 강력한 에이전트가 41.46% 달성, 대부분 40% 미만.

방법

  • 평가 프레임워크Engine Grounding, Artifact Completeness, Interactive Verification 세 가지 기준을 제안.
  • 상호작용 기반재생 데모와 루브릭 기반 멀티모달 평가로 실행 가능한 게임플레이를 측정합니다.

한계·조건

  • 태스크 범위140개 태스크는 다양한 장르를 포함하지만 모든 게임 유형을 대표하진 않습니다.
  • 코드·데이터데모, 코드, 데이터는 공개되어 재현 가능합니다.

편집자 한 줄

에이전트가 개별 기능은 구현하지만 완전한 게임으로 통합하는 데 어려움을 겪는다는 점이 흥미롭네요.

  • #game-generation
  • #coding-agents
  • #benchmark
  • #godot
  • #cuhk
Chinese University of Hong Kong, Shenzhen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —