Papers·2개월 전

YoCausal: 비디오 확산 모델의 인과 추론 능력 평가 — 시간 역전으로 만든 자연 반사실적 샘플

Alaya Studio 팀이 비디오 확산 모델(VDM)이 진정한 인과 추론을 하는지 평가하는 YoCausal 벤치마크를 제안했습니다. 실제 영상을 시간 역전시켜 반사실적 샘플을 만들고, 수준 1(시간 방향 인식)과 수준 2(인과 추론)로 나누어 평가합니다. 13개 SOTA VDM 평가 결과, 시간 방향 인식과 인과 추론은 별개의 능력이며 인간 수준과 큰 격차가 있음을 확인했습니다.

비디오 확산 모델이 단순한 통계적 패턴 과적합인지, 진정한 인과 추론을 하는지 평가하는 벤치마크가 공개되었습니다.

핵심 결론

태스크 — VDM의 인과 추론 능력을 두 수준(시간 방향 인식, 인과 추론)으로 평가.
수치 — 13개 SOTA VDM 평가 결과, 시간 방향 인식 점수(RSI)와 인과 추론 점수(CCI) 간 상관관계가 낮아 두 능력이 분리됨을 확인.
격차 — 인간 수준의 인과 인지와 큰 차이를 보이며, 현재 VDM은 진정한 인과 추론에 미치지 못합니다.

방법

VoE 패러다임 — 인지과학의 기대 위반(VoE) 패러다임을 차용, 실제 영상을 시간 역전시켜 자연스러운 반사실적 샘플을 생성.
수준 1 — 역전 서프라이즈 지수(RSI)로 denoising loss를 통해 시간 방향 인식 능력을 정량화.
수준 2 — 인과 인지 지수(CCI)로 VLM을 활용해 데이터셋을 인과/비인과 하위 집합으로 나누고, 진정한 인과 추론을 시간적 편향과 분리.

한계·조건

데이터 — 평가는 특정 데이터셋에 국한되며, 다양한 도메인으로의 일반화는 추가 검증 필요.
재현성 — 코드 및 데이터셋은 공개 예정이나 현재는 논문 내 figure와 abstract만 확인 가능.

편집자 한 줄

인과 추론 평가를 위해 실제 영상을 시간 역전시키는 아이디어가 간결하면서도 효과적입니다. 다만 VLM 기반 데이터 분할의 신뢰성은 추가 분석이 필요해 보입니다.

#video-diffusion
#causality
#benchmark
#alaya-studio

Alaya Studio

원문 보기 →

YoCausal: 비디오 확산 모델의 인과 추론 능력 평가 — 시간 역전으로 만든 자연 반사실적 샘플

핵심 결론

방법

한계·조건

Comments