Papers·3일 전
Artifact-Bench: MLLM의 AI 생성 비디오 아티팩트 인식 능력 평가 — 19개 모델 중 다수 무작위 수준

Artifact-Bench는 포토리얼리스틱, 애니메이션, CG 스타일 비디오를 아우르는 3단계 계층적 분류 체계를 기반으로, MLLM의 아티팩트 탐지 및 분석 능력을 평가하는 벤치마크입니다. real vs. AI 생성 분류, 쌍별 리얼리즘 비교, 세분화된 아티팩트 식별의 세 가지 태스크로 구성되며, 19개 MLLM 실험 결과 대부분이 까다로운 설정에서 무작위 수준 이하의 성능을 보였습니다. 특히 MLLM 판단과 인간 지각 선호도 간의 상당한 불일치가 관찰되어, AI 생성 비디오 리얼리즘 평가자로서의 신뢰성에 한계가 있음을 드러냈습니다.
- #mllm
- #video-generation
- #benchmark
- #artifact-detection
- #huggingface
Yuqi Tang