Papers·1개월 전

NJU-LINK Lab, Omni-modal 캡셔닝 명령 수행 평가 벤치마크 OmniCap-IF 공개 — 50개 제약 유형, 포맷-내용 트레이드오프 발견

NJU-LINK Lab이 Omni-modal LLM의 복잡한 명령 수행 능력을 평가하는 최초의 벤치마크 OmniCap-IF를 공개했습니다. 50개 제약 유형(순수 시각/청각/시청각)과 Temporal Grounding을 포함한 1,920개 샘플로 평가한 결과, 포맷 복잡성이 증가할수록 모달리티 추론 능력이 저하되는 "포맷-내용 트레이드오프" 현상을 발견했습니다. 함께 공개한 54K instruction-tuning 데이터셋 OmniCap-IF-54K로 학습한 OmniCaptioner-IF는 복잡한 명령 수행과 일반 캡셔닝 모두에서 성능 향상을 보였습니다.

Omni-modal LLM이 오디오와 비디오를 동시에 처리하는 능력은 뛰어나지만, 복잡한 사용자 명령을 정확히 따르는 능력은 아직 평가되지 않았습니다.

핵심 결론

벤치마크 — OmniCap-IF는 50개 제약 유형(포맷/내용)과 Temporal Grounding을 포함한 1,920개 고품질 샘플로 구성.
주요 발견 — 포맷 복잡성이 증가하면 모델의 omni-modal 추론 능력이 유의미하게 저하되는 tradeoff 존재.
성능 격차 — 현존 모델 간 큰 성능 차이 확인 — 특정 제약 유형에서 최대 30% 이상 차이.

방법

평가 체계 — 포맷 정확성(형식 조건)과 내용 정확성(사실 관계) 두 축으로 평가.
데이터셋 — 54K instruction-tuning 데이터 OmniCap-IF-54K를 큐레이션하여 OmniCaptioner-IF 학습에 활용.
Temporal Grounding을 포함해 시공간적 정밀도까지 측정한 점이 기존 벤치마크와 차별화됩니다.

한계·조건

범위 — 벤치마크는 캡셔닝 태스크에 국한되며, QA나 요약 등 다른 omni-modal 태스크는 미포함.
코드/데이터 — OmniCap-IF와 OmniCap-IF-54K는 Hugging Face에 공개 예정.
재현성 — OmniCaptioner-IF의 학습 레시피는 논문에 상세히 기술되어 있으나, base model 크기 등 일부 세부사항은 추가 확인 필요.

편집자 한 줄

포맷-내용 tradeoff는 실제 서비스에서 instruction 설계 시 고려해야 할 중요한 지표가 될 것 같습니다.

#omni-modal
#instruction-following
#benchmark
#captioning
#nju

NJU-LINK Lab

원문 보기 →

NJU-LINK Lab, Omni-modal 캡셔닝 명령 수행 평가 벤치마크 OmniCap-IF 공개 — 50개 제약 유형, 포맷-내용 트레이드오프 발견

핵심 결론

방법

한계·조건

Comments