Papers·1개월 전

EvalVerse: 비디오 생성 평가를 영화 제작 전문성으로 체계화한 프레임워크

Tencent 연구팀이 생성형 비디오 평가를 단순 프롬프트 충실도('옳은지')에서 영화적 품질, 연기, 미학('좋은지')으로 확장한 EvalVerse를 공개했습니다. 사전·본·후반 제작 단계별 평가 체계를 설계하고, 전문가 주석 데이터로 VLM을 미세조정해 Chain-of-Thought 추론을 수행합니다. 기존 메트릭 대비 다중 샷 시퀀싱과 시청각 통합 평가를 추가했지만, 정적 리더보드를 넘어 보상 모델·평가 에이전트의 기반 인프라를 목표로 합니다.

Tencent 팀이 생성형 비디오 평가를 '옳은지'에서 '좋은지'로 확장한 EvalVerse를 제안했습니다.

핵심 결론

태스크 — 비디오 생성 평가를 프롬프트 충실도뿐 아니라 영화적 품질·연기·미학까지 포괄.
방식 — 전문가 주석 데이터로 VLM을 미세조정, Chain-of-Thought 추론으로 평가.
범위 — 다중 샷 시퀀싱과 시청각 통합 평가를 추가해 기존 벤치마크보다 확장.

방법

평가 체계 — 영화 제작 워크플로(사전·본·후반 제작)에 맞춰 평가 분류 체계를 설계.
데이터 — 대규모 인간 주석 데이터셋을 구축해 전문가 판단을 수치화.
VLM 튜닝 — 전문가 보정 미세조정 전략으로 VLM이 명시적 CoT 추론을 수행하도록 학습.

한계·조건

목표 — 정적 리더보드가 아닌, 보상 모델·평가 에이전트 등 후속 연구의 기반 인프라를 지향.
공개 — 데이터셋과 모델의 공개 여부는 논문에서 명시되지 않았습니다.

편집자 한 줄

전문 영화 제작 지식을 평가에 접목한 점은 참신하지만, VLM의 CoT 추론이 실제로 인간 평가와 얼마나 일치하는지 정량적 비교가 필요해 보입니다.

#video-generation
#evaluation
#vlm
#tencent

Tencent

원문 보기 →

EvalVerse: 비디오 생성 평가를 영화 제작 전문성으로 체계화한 프레임워크

핵심 결론

방법

한계·조건

Comments