Papers·어제
WRBench: 세계 모델이 관찰되지 않을 때도 물리적 세계를 유지하는지 평가하는 최초의 벤치마크

WRBench는 카메라 움직임을 관찰 가능성에 대한 개입으로 보고, 세계 모델이 관찰되지 않는 동안에도 사건이 진행되는지 평가하는 최초의 체계적 진단 벤치마크입니다. 23개 모델, 4개 제어 패러다임, 9,600개 비디오를 평가한 결과, 현재 시스템은 관찰되지 않는 동안 사건을 진행시키지 않고 대상이 다시 보일 때 중단된 상태로 재개하는 일관된 실패를 보였습니다. 이는 물리적 세계 상태의 진화가 단순한 이미지 품질이나 제어 정밀도로 해결되지 않음을 시사합니다.
세계 모델이 관찰되지 않는 동안에도 물리적 사건이 지속되는지 평가하는 최초의 벤치마크 WRBench가 공개되었습니다.
핵심 결론
- 문제 — 기존 벤치마크는 관찰되지 않는 동안의 세계 상태 진화를 평가하지 않아, 모델이 단순히 다음 프레임을 생성하는지 진정한 세계 모델인지 구분하지 못합니다.
- 결과 — 23개 모델(4개 제어 패러다임) 모두 관찰되지 않는 동안 사건을 진행시키지 않고, 대상이 다시 보일 때 중단된 상태로 재개하는 일관된 실패를 보였습니다.
방법
- WRBench — 카메라 움직임을 관찰 가능성에 대한 개입으로 간주하고, 세 가지 질문을 평가합니다: 카메라가 요청된 상호작용을 수행하는지, 장면이 연속적이고 식별 가능한지, 돌아온 대상이 이전에 시작된 사건과 일관된지.
- 데이터 — 9,600개 비디오를 인간 평가로 검증하여 신뢰성을 확보했습니다.
한계·조건
- 범위 — 벤치마크는 카메라 개입에 초점을 맞추며, 다른 유형의 관찰 불가능성(예: 물체 가림)은 다루지 않습니다.
- 모델 — 평가된 모델은 2024년 기준이며, 최신 모델에서는 결과가 다를 수 있습니다.
편집자 한 줄
세계 모델의 핵심인 '관찰되지 않을 때의 일관성'을 체계적으로 측정한 첫 시도라는 점에서 의미가 깊습니다.
- #world-models
- #benchmark
- #video-generation
- #physical-reasoning
Jinpeng Lu