← Back to feed
Papers·2일 전

LongAV-Compass: 1분 단위 오디오-비디오 생성 평가 벤치마크 — 11개 모델, 20개 이상 세부 차원 진단

LongAV-Compass: 1분 단위 오디오-비디오 생성 평가 벤치마크 — 11개 모델, 20개 이상 세부 차원 진단

Kling 팀이 1분 길이 오디오-비디오 생성을 평가하는 체계적 벤치마크 LongAV-Compass를 공개했습니다. 텍스트, 이미지, 비디오 조건 각각에 대해 284개 테스트 케이스를 구성하고, MLLM 평가와 DINO-v2, ArcFace, CLIP, ImageBind 같은 지표를 결합해 세그먼트 내 품질, 교차 세그먼트 일관성, 서사 coherence, 의미 정렬, AV 동기화 등 20개 이상 세부 차원을 측정합니다. 11개 대표 모델 실험 결과, 현재 시스템이 1분 스케일에서 identity 일관성과 내러티브 coherence를 유지하는 데 한계가 있음을 진단했습니다.

Kling 팀이 1분 단위 오디오-비디오 생성을 평가하는 체계적 벤치마크 LongAV-Compass를 공개했습니다.

핵심 결론

  • 태스크T2AV, I2AV, V2AV 세 가지 조건에서 1분 길이 생성물 평가.
  • 규모284개 테스트 케이스, 20개 이상 세부 평가 차원.
  • 결과11개 모델 실험 결과, 장기 identity 일관성과 서사 coherence에서 현저한 성능 저하 확인.

방법

  • 데이터 구성애플리케이션 시나리오와 생성 복잡도에 따라 taxonomy 기반으로 284개 케이스 선별.
  • 평가 프레임워크MLLM-assisted 평가 + DINO-v2, ArcFace, CLIP, ImageBind 등 지표 결합.
  • 세부 차원세그먼트 내 품질, 교차 세그먼트 일관성, 글로벌 서사 coherence, 의미 정렬, AV 동기화 등.

한계·조건

  • 벤치 범위1분 길이에 특화 — 더 긴 영상(5분 이상)으로 일반화는 추가 검증 필요.
  • 모델11개 모델은 공개/비공개 혼합 — 일부 모델의 세부 설정이 미공개.
  • 코드벤치마크 데이터와 평가 코드는 Hugging Face에 공개 예정.

편집자 한 줄

1분 단위 평가가 드문 상황에서 진단 도구로서 유용하지만, 실제 서비스 환경의 노이즈나 사용자 선호도까지 반영하진 않습니다.

  • #audio-visual-generation
  • #benchmark
  • #long-form
  • #evaluation
  • #kling
Kling Team
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —