Papers·1주 전
MBench: 비디오 월드 모델의 장기 메모리 능력 평가 벤치마크

Tsinghua 팀이 비디오 월드 모델의 장기 메모리 능력을 평가하는 MBench 벤치마크를 공개했습니다. 기존 벤치마크가 시각적 품질이나 모션 일관성에 집중한 반면, MBench는 개체 일관성, 환경 일관성, 인과 일관성의 세 가지 차원과 12개 하위 차원으로 메모리 능력을 체계적으로 분해합니다. 실제 촬영된 긴 비디오를 기반으로 규칙 기반 정량 지표와 VLM을 결합해 평가하며, 현행 모델들의 장기 상태 유지 한계를 드러냈습니다.
Tsinghua 팀이 비디오 월드 모델의 장기 메모리 능력을 정량 평가하는 MBench 벤치마크를 제안했습니다.
핵심 결론
- 평가 차원 — 개체 일관성, 환경 일관성, 인과 일관성의 세 가지 차원과 12개 하위 차원으로 메모리를 분해해 평가합니다.
- 데이터 — 실제 촬영된 긴 비디오를 엄선해 사용하며, 규칙 기반 정량 지표와 VLM을 결합해 객관적 평가가 가능합니다.
- 발견 — 현행 SOTA 비디오 월드 모델들은 장기 상태 유지에 근본적 한계를 보이며, 특히 인과 일관성에서 큰 격차가 확인되었습니다.
방법
- 메모리 분해 — 개체 일관성(위치·형태·색상), 환경 일관성(배경·조명·시간), 인과 일관성(물리·행동·상호작용)으로 나누어 총 12개 하위 차원을 정의합니다.
- 평가 방식 — 규칙 기반 정량 지표(예: 객체 검출 일치율)와 VLM 기반 일관성 점수를 결합해 사람 개입 없이 자동 평가합니다.
- 데이터 구성 — 실제 촬영된 장면으로 구성해 합성 데이터의 편향을 피했으며, 각 비디오는 30초~2분 길이로 다양한 상호작용을 포함합니다.
한계·조건
- 벤치 범위 — 현재는 메모리 일관성에 초점을 맞추며, 생성 품질이나 모션 자연스러움은 별도 평가가 필요합니다.
- VLM 의존성 — VLM 평가자의 신뢰도가 완전히 검증되지는 않았으며, 향후 사람 평가와의 상관 분석이 필요합니다.
- 코드 공개 — 벤치마크 데이터와 평가 코드는 공개 예정입니다.
편집자 한 줄
비디오 월드 모델의 '기억력'을 체계적으로 측정하려는 시도 자체가 신선합니다. 특히 인과 일관성에서 현행 모델들이 취약하다는 점은 향후 연구 방향을 명확히 해주네요.
- #video-world-model
- #memory
- #benchmark
- #tsinghua
Tsinghua University