Papers·어제
WorldOlympiad — 비디오 월드 모델의 물리·기하·상호작용 충실도를 진단하는 벤치마크

DAMO Academy 팀이 비디오 생성 월드 모델을 물리 충실도, 기하 일관성, 상호작용 충실도 세 축으로 평가하는 벤치마크 WorldOlympiad를 공개했습니다. 기존 벤치마크가 시각적 품질이나 단기 시간적 일관성에 집중한 반면, WorldOlympiad는 물리 법칙 준수, 3D 구조 유지, 장기 제어 가능한 상호작용을 진단합니다. 실험 결과 최신 모델들에서 물리 추론, 3D 일관성, 장기 상호작용에서 상당한 격차가 드러났습니다.
DAMO Academy가 비디오 기반 월드 모델의 물리·기하·상호작용 충실도를 체계적으로 진단하는 벤치마크 WorldOlympiad를 공개했습니다.
핵심 결론
- 평가 축 — 물리 충실도, 기하 일관성, 상호작용 충실도 세 가지로 분해하여 평가합니다.
- 발견 — 최신 모델들은 물리 추론, 3D 일관성, 장기 상호작용에서 상당한 격차를 보였습니다.
방법
- 물리 트랙 — 객체 분할과 MLLM-as-judge를 활용해 역학, 열 현상, 재료 특성 등 해석 가능한 규칙 준수 여부를 평가합니다.
- 기하 트랙 — 생성된 비디오를 Gaussian splatting으로 재구성하여 구조적 일관성, 교차 뷰 일관성, 카메라 궤적 정합성을 평가합니다.
- 상호작용 트랙 — 복잡한 동작 프롬프트에 따른 롤아웃 생성과 연속 비디오 청크 간의 부드러운 전환을 평가합니다.
- 시나리오 — 게임, 로봇공학, 일반 실세계 비디오 등 세 가지 주요 하위 시나리오를 포함합니다.
한계·조건
- 범위 — 벤치마크는 물리·기하·상호작용에 초점을 맞추며, 생성된 비디오의 시각적 품질이나 의미적 정합성은 기존 벤치마크에 맡깁니다.
- 재현성 — 코드와 데이터셋 공개 여부는 아직 명시되지 않았습니다.
편집자 한 줄
물리와 3D 일관성을 동시에 진단하는 점이 인상적이며, 특히 상호작용 트랙은 장기 제어 가능성 평가에 유용해 보입니다.
- #world-models
- #video-generation
- #benchmark
- #damo-academy
DAMO Academy