Papers·1개월 전

LongAV-Compass: 1분 단위 오디오-비디오 생성 평가 벤치마크 — 11개 모델, 20개 이상 세부 차원 진단

Kling 팀이 1분 길이 오디오-비디오 생성을 평가하는 체계적 벤치마크 LongAV-Compass를 공개했습니다. 텍스트, 이미지, 비디오 조건 각각에 대해 284개 테스트 케이스를 구성하고, MLLM 평가와 DINO-v2, ArcFace, CLIP, ImageBind 같은 지표를 결합해 세그먼트 내 품질, 교차 세그먼트 일관성, 서사 coherence, 의미 정렬, AV 동기화 등 20개 이상 세부 차원을 측정합니다. 11개 대표 모델 실험 결과, 현재 시스템이 1분 스케일에서 identity 일관성과 내러티브 coherence를 유지하는 데 한계가 있음을 진단했습니다.

Kling 팀이 1분 단위 오디오-비디오 생성을 평가하는 체계적 벤치마크 LongAV-Compass를 공개했습니다.

핵심 결론

태스크 — T2AV, I2AV, V2AV 세 가지 조건에서 1분 길이 생성물 평가.
규모 — 284개 테스트 케이스, 20개 이상 세부 평가 차원.
결과 — 11개 모델 실험 결과, 장기 identity 일관성과 서사 coherence에서 현저한 성능 저하 확인.

방법

데이터 구성 — 애플리케이션 시나리오와 생성 복잡도에 따라 taxonomy 기반으로 284개 케이스 선별.
평가 프레임워크 — MLLM-assisted 평가 + DINO-v2, ArcFace, CLIP, ImageBind 등 지표 결합.
세부 차원 — 세그먼트 내 품질, 교차 세그먼트 일관성, 글로벌 서사 coherence, 의미 정렬, AV 동기화 등.

한계·조건

벤치 범위 — 1분 길이에 특화 — 더 긴 영상(5분 이상)으로 일반화는 추가 검증 필요.
모델 — 11개 모델은 공개/비공개 혼합 — 일부 모델의 세부 설정이 미공개.
코드 — 벤치마크 데이터와 평가 코드는 Hugging Face에 공개 예정.

편집자 한 줄

1분 단위 평가가 드문 상황에서 진단 도구로서 유용하지만, 실제 서비스 환경의 노이즈나 사용자 선호도까지 반영하진 않습니다.

#audio-visual-generation
#benchmark
#long-form
#evaluation
#kling

Kling Team

원문 보기 →

LongAV-Compass: 1분 단위 오디오-비디오 생성 평가 벤치마크 — 11개 모델, 20개 이상 세부 차원 진단

핵심 결론

방법

한계·조건

Comments