Papers·1개월 전

NJU-LINK Lab, 복합 비디오 편집 벤치마크 CoVEBench 공개 — 416개 비디오, 626개 명령, 9,990개 체크리스트

NJU-LINK Lab이 복합적인 비디오 편집 요청을 평가하는 벤치마크 CoVEBench를 발표했습니다. 기존 벤치마크는 단일 편집에 치우쳤으나, CoVEBench는 416개 소스 비디오, 626개 다중 지점 편집 명령, 9,990개 세부 체크리스트로 구성되어 객체, 동작, 카메라 뷰 등 여러 요소를 동시에 편집하는 능력을 진단합니다. 실험 결과, 현재 모델들은 복합 편집에서 편집 누락, 보존 위반, 아티팩트 발생 등 한계를 보였습니다.

NJU-LINK Lab이 복합적인 비디오 편집 요청을 평가하는 벤치마크 CoVEBench를 공개했습니다.

핵심 결론

벤치마크 구성 — 416개 소스 비디오, 626개 다중 지점 편집 명령, 9,990개 세부 체크리스트 항목.
평가 방식 — MLLM이 편집 명령 준수 여부와 비디오 충실도를 판단하고, 자동 메트릭으로 비디오 품질을 측정합니다.
현재 모델 한계 — 복합 편집 시 편집 누락, 보존 위반, 아티팩트 발생 등이 빈번하게 관찰되었습니다.

방법

데이터 수집 — 다양한 편집 차원(객체, 동작, 카메라 뷰 등)을 포함하는 416개 비디오를 선별하고, 각 비디오에 대해 1~2개의 다중 지점 편집 명령을 작성했습니다.
체크리스트 — 각 편집 명령에 대해 평균 16개의 세부 체크리스트 항목을 생성하여, 모델이 각 편집을 정확히 수행했는지 미세하게 진단합니다.
평가 프로토콜 — MLLM 기반 평가로 명령 준수도와 충실도를 측정하고, 추가로 자동 메트릭(PSNR, SSIM 등)으로 비디오 품질을 평가합니다.

한계·조건

범위 — 벤치마크는 416개 비디오로 제한되며, 다양한 장르와 복잡도를 포괄하지만 모든 실제 시나리오를 대표하지는 않습니다.
평가 의존성 — MLLM 평가는 MLLM의 성능에 의존적이므로, MLLM 자체의 편향이나 오류가 결과에 영향을 줄 수 있습니다.
코드 공개 — 현재 논문과 데이터셋은 공개되었으나, 평가 코드의 공개 여부는 확인되지 않았습니다.

편집자 한 줄

복합 편집 요청을 세분화하여 진단한다는 점에서 기존 벤치마크와 차별화되네요. 다만 MLLM 평가의 신뢰성에 대한 추가 검증이 필요해 보입니다.

#video-editing
#benchmark
#compositional
#nju-lab

NJU-LINK Lab

원문 보기 →

NJU-LINK Lab, 복합 비디오 편집 벤치마크 CoVEBench 공개 — 416개 비디오, 626개 명령, 9,990개 체크리스트

핵심 결론

방법

한계·조건

Comments