Papers·어제
Hong Kong University, VLM 에이전트 평가용 OmniGameArena 공개 — 12개 Unreal Engine 5 게임 + 반복 개선 곡선

Hong Kong University 팀이 VLM 에이전트 평가를 위한 통합 벤치마크 OmniGameArena 를 공개했습니다. Solo 7종, PvP 3종, Coop 2종의 Unreal Engine 5 게임으로 구성되며, 단순 1회 점수 대신 개선 역학 곡선(IDC)을 도입해 에이전트가 반복적으로 스킬 프롬프트를 개선하는 과정을 측정합니다. 12개 VLM 에이전트의 콜드스타트 리더보드와 4개 상위 에이전트의 IDC 결과를 보고했습니다.
VLM 에이전트 평가를 위해 12개의 Unreal Engine 5 게임과 반복 개선 곡선(IDC)을 도입한 통합 벤치마크가 나왔습니다.
핵심 결론
- 벤치마크 — 12개 Unreal Engine 5 게임 (Solo 7, PvP 3, Coop 2) 으로 구성, 통합 액션 인터페이스 제공.
- 평가 방식 — 기존의 단일 1회 점수 대신 IDC 를 통해 반복 개선 과정과 일반화 능력을 측정.
- 결과 — 12개 VLM 에이전트 콜드스타트 리더보드 + 4개 상위 에이전트의 IDC 결과 보고.
방법
- IDC — 도구 사용 reflector LLM 이 bounded skill prompt 를 여러 라운드에 걸쳐 자율적으로 개선하는 harness.
- 관측치 — 각 (에이전트, 게임) 쌍에 대해 점수 변화와 학습된 스킬의 변형 태스크 일반화 성능을 추적.
- 에이전트 다양성 — 상용 VLM, 오픈웨이트 VLM, 전용 게임 정책 등 이종 에이전트를 동일 조건에서 평가 가능.
한계·조건
- 환경 — Unreal Engine 5 기반 시뮬레이션으로 실제 게임과의 괴리가 있을 수 있음.
- 재현성 — 코드 및 데이터 공개 여부는 abstract 에 명시되지 않음.
편집자 한 줄
IDC 가 단순 리더보드보다 에이전트의 적응력을 잘 드러낼 수 있는지, 후속 연구에서 더 다양한 게임 장르로 확장되면 좋겠네요.
- #vlms
- #benchmark
- #game-agents
- #hong-kong-university
Hong Kong University