Papers·5일 전
NJU, 오디오-비주얼 QA 자동 데이터 엔진 OmniVideo-100K 공개 — VITA/Qwen2.5-Omni 성능 최대 20.59% 향상

Nanjing University 팀이 오디오-비주얼 QA를 위한 자동 데이터 엔진을 제안했습니다. 기존의 '비디오-캡션-QA' 파이프라인이 오디오와 비주얼을 분리 처리해 발생하는 연관성 단절과 엔티티 참조 불일치를 해결하기 위해, 엔티티 기반 비디오 스크립팅과 단서 기반 QA 생성을 도입했습니다. 이로 구축한 OmniVideo-100K 데이터셋으로 VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B를 파인튜닝한 결과, 자체 테스트셋에서 최대 20.59% 성능 향상을 보였고 Daily-Omni, JointAVBench 등 기존 벤치마크에서도 최대 12.64% 개선을 달성했습니다.
NJU 연구진이 오디오-비주얼 QA를 위한 자동 데이터 생성 엔진을 제안, 기존 파이프라인의 단점을 보완했습니다.
핵심 결론
- 성능 — OmniVideo-100K로 파인튜닝한 VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B가 자체 테스트셋에서 최대 20.59% 향상.
- 일반화 — Daily-Omni, JointAVBench 등 기존 벤치마크에서 최대 12.64% 개선, 제안 데이터의 일반화 능력을 입증.
방법
- 엔티티 기반 스크립팅 — 비디오를 구조화된 스크립트(요약, 주요 엔티티 리스트, 세그먼트별 오디오-비주얼 설명)로 변환. 엔티티 리스트가 전역 사전 정보 역할을 해 세그먼트 간 참조 일관성과 오디오-비주얼 연관성을 복원.
- 단서 기반 QA 생성 — 모델이 스크립트에서 크로스-세그먼트, 멀티모달 단서를 먼저 추출한 후, 이 고가치 단서를 바탕으로 QA 쌍을 생성.
- 기존 '비디오-캡션-QA' 패러다임이 오디오와 비주얼을 분리 처리해 연관성을 끊고, 독립적 클립 처리로 동일 엔티티에 대한 설명이 불일치하는 문제를 해결한 점이 핵심입니다.
한계·조건
- 데이터셋 — OmniVideo-100K는 자동 생성 데이터이며, 인간 검증 테스트셋 OmniVideo-Test도 함께 공개.
- 재현성 — 코드와 데이터셋 공개 여부는 abstract에 명시되지 않았으나, Hugging Face papers 링크를 통해 확인 가능할 것으로 보입니다.
편집자 한 줄
오디오-비주얼 QA에서 데이터 부족 문제를 해결할 자동 파이프라인으로, 특히 엔티티 일관성 유지 방식이 실용적으로 느껴집니다.
- #audio-visual-qa
- #data-engine
- #nju
- #video-understanding
Nanjing University