Papers·6일 전
EgoCS-400K: 40만 시간 FPS 게임플레이로 구축한 세계 모델용 데이터셋

City University of Hong Kong 팀이 세계 모델 학습을 위한 대규모 에고센트릭 데이터셋 EgoCS-400K를 공개했습니다. CS/Counter-Strike 2 프로 경기 데모 1,000개 이상에서 추출한 40만 개의 1인칭 비디오와 10,000시간의 게임플레이로, 행동·카메라 움직임·게임 상태·이벤트가 시간 정렬되어 있습니다. 기존 웹 비디오(실행 가능한 행동 부재)와 로봇 데이터(비용·다양성 한계) 사이를 잇는 실용적 브리지 역할을 목표로 합니다.
City University of Hong Kong 팀이 40만 개의 1인칭 비디오와 10,000시간의 게임플레이를 포함한 대규모 에고센트릭 데이터셋 EgoCS-400K를 공개했습니다.
핵심 결론
- 데이터 규모 — 400,000개 이상의 1인칭 비디오, 10,000시간 게임플레이, 1,000개 이상의 매치, 40,000라운드, 13개 맵, 라운드당 10개 시점.
- 지원 태스크 — 행동 조건부 미래 예측, 상태·이벤트 인식 장면 롤아웃, 리플레이 기반 캡셔닝, 에이전트 에고센트릭 행동 이해.
방법
- 데이터 소스 — 공개 CS/Counter-Strike 2 프로 경기 데모에서 인간 게임플레이 궤적을 파싱, 리플레이, 렌더링, 시간 정렬.
- 추출 정보 — 플레이어 상태, 시야 방향, 이동, 키보드/버튼 입력, 시야각 변화, 무기 사용, 게임 이벤트, 라운드 컨텍스트.
- 렌더링 — 동일 궤적에서 깨끗한 1인칭 비디오를 렌더링하여 시각적 관찰과 행동·카메라 움직임·상태·이벤트를 연결.
한계·조건
- 도메인 — FPS 게임(CS)에 특화되어 있어 일반적인 실내/실외 에고센트릭 데이터로의 일반화는 검증되지 않음.
- 코드 — 데이터셋은 공개되었으나, 파싱·렌더링 파이프라인의 재현성은 별도 확인 필요.
편집자 한 줄
게임 데이터라는 특수성은 있지만, 행동·상태·이벤트가 시간 정렬된 대규모 에고센트릭 데이터로서 세계 모델 연구에 유용한 자원이 될 만합니다.
- #world-models
- #egocentric
- #dataset
- #counter-strike
- #cityu
City University of Hong Kong