Papers·5일 전
DeepMind, 비디오 생성 모델 물리 이해 평가 벤치마크 Physics-IQ 검증 — 샘플 57.6% 정제, 순위 상관 0.46

DeepMind 팀이 비디오 생성 모델(VGM)의 물리적 세계 이해를 평가하는 Physics-IQ 벤치마크를 체계적으로 감사하고 개선한 Physics-IQ Verified를 공개했습니다. 기존 벤치마크의 프롬프트와 정답 품질을 개선하고, 샘플 수준 점수 체계를 도입해 혼동 요인을 줄였습니다. 6개 이미지-투-비디오 모델 비교에서 순위 변화가 관찰되었으나(Kendall's τ=0.46), 여전히 물리 이해 평가의 신뢰성 향상에 기여할 것으로 보입니다. 코드는 GitHub에 공개되었습니다.
DeepMind가 비디오 생성 모델의 물리 이해를 평가하는 Physics-IQ 벤치마크를 개선한 Physics-IQ Verified를 공개했습니다.
핵심 결론
- 개선 — 기존 Physics-IQ의 샘플 중 57.6%를 정제하고, 34.8%의 프롬프트를 개선했습니다.
- 영향 — 6개 이미지-투-비디오 모델 평가에서 순위 변화가 있었으나 상관계수는 0.46으로 중간 수준입니다.
방법
- 프롬프트 개선 — 모호한 프롬프트를 구체화하고, 물리 실험과의 정합성을 높였습니다.
- 정답 개선 — 실제 물리 실험 비디오와의 비교 기준을 더 정밀하게 조정했습니다.
- 샘플 점수 — 각 샘플과 메트릭에 동일한 가중치를 부여하는 샘플 수준 점수 체계를 도입했습니다.
한계·조건
- 범위 — 벤치마크는 특정 물리 실험 세트에 국한되며, 모든 물리 현상을 포괄하지 않습니다.
- 재현성 — 코드는 공개되었으나, 평가에 사용된 모델의 세부 구성이 모두 공개된 것은 아닙니다.
- 상관 — Kendall's τ=0.46은 순위 변화가 상당함을 의미하지만, 여전히 불완전한 평가 신호임을 시사합니다.
편집자 한 줄
물리 이해 평가는 VGM의 세계 모델링 능력 측정에 중요하지만, 현재 벤치마크가 모든 측면을 포괄하지는 않는다는 점을 염두에 둘 필요가 있습니다.
- #video-generation
- #benchmark
- #physics
- #deepmind
Tim Rädsch