Papers·1개월 전

멀티샷 오디오-비디오 생성 평가 벤치마크 MSAVBench 공개 — 인간 판단과 91.5% Spearman 상관

TongyiLab 연구팀이 멀티샷 오디오-비디오(MSAV) 생성을 위한 최초의 종합 벤치마크 MSAVBench를 공개했습니다. 비디오, 오디오, 샷, 참조의 4개 차원, 최대 15샷, 비현실적 시나리오를 포함하며, 적응형 자기 수정 샷 분할 및 인스턴스별 루브릭을 통해 평가의 견고성을 높였습니다. 19개 최신 모델 평가 결과, 현재 시스템은 디렉터 수준 제어와 미세한 시청각 동기화에 어려움을 겪으며, 모듈형/에이전트형 파이프라인이 오픈소스와 클로즈드소스 모델 간 격차를 줄이는 유망한 방향으로 나타났습니다. 벤치마크 데이터와 평가 코드는 공개 예정입니다.

#video-generation
#audio-video
#benchmark
#tongyilab
#evaluation

TongyiLab

원문 보기 →

멀티샷 오디오-비디오 생성 평가 벤치마크 MSAVBench 공개 — 인간 판단과 91.5% Spearman 상관

Comments