Papers·어제
CF-World 벤치마크 — T2I 모델의 반사실적 생성 능력, 사실적 프롬프트 대비 급락

연구진이 Russell의 칠면조 비유에서 영감을 받아 반사실적 벤치마크 CF-World를 도입했습니다. T2I 모델이 현실 상식과 배치되는 규칙 아래에서 이미지를 생성할 수 있는지 세 단계(사실적, 명시적 반사실적, 암시적 반사실적)로 평가한 결과, 모든 모델이 반사실적 설정에서 성능이 급락했습니다. 원인은 모델이 세계 지식과 시각적 외형을 강하게 결합된 패턴으로 인코딩하여, 훈련 데이터의 빈번한 시각적 공동 발생에 의존하기 때문으로 분석됩니다.
T2I 모델이 진정한 인과 이해를 하는지, 아니면 단순한 패턴 매칭에 그치는지 검증하는 반사실적 벤치마크 CF-World가 공개되었습니다.
핵심 결론
- 벤치마크 — CF-World는 사실적, 명시적 반사실적, 암시적 반사실적 세 단계로 구성되며, VLM 기반 평가자 CF-Eval을 사용합니다.
- 성능 — 모든 T2I 모델이 사실적에서 반사실적 설정으로 갈수록 급격한 성능 저하를 보였습니다.
- 지표 — Prior Resistance Rate (PRR)과 Reasoning Retention Rate (RRR) 두 지표를 제안하여 반사실적 생성 능력을 측정합니다.
방법
- 데이터 — 각 시나리오는 현실 상식, 직접적 시각 지시, 인과 추론이 필요한 암시적 규칙 순으로 난이도가 증가합니다.
- 분석 — 실패 원인은 모델이 세계 지식과 시각적 외형을 강하게 결합된 패턴으로 인코딩하기 때문으로, 훈련 데이터의 빈번한 공동 발생에 의존합니다.
한계·조건
- 평가 — VLM 기반 평가자의 신뢰성은 추가 검증이 필요할 수 있습니다.
- 범위 — 벤치마크는 특정 규칙 집합에 국한되며, 모든 반사실적 시나리오를 포괄하지는 않습니다.
- 코드 — 데이터셋과 평가 코드는 공개 예정입니다.
편집자 한 줄
반사실적 추론은 여전히 T2I 모델의 취약점임을 잘 보여주는 벤치마크네요. 특히 암시적 조건에서의 급락이 인상적입니다.
- #text-to-image
- #counterfactual
- #benchmark
- #causal-reasoning
Jiayi Lei