← Back to feed
Papers·6일 전

CMU, 전문가 수준 비디오 캡셔닝 위한 CHAI 프레임워크 — Gemini-3.1-Pro 능가

CMU, 전문가 수준 비디오 캡셔닝 위한 CHAI 프레임워크 — Gemini-3.1-Pro 능가

CMU 팀이 비디오-언어 모델의 정밀한 캡셔닝을 위한 오픈 데이터셋, 벤치마크, 학습 레시피를 공개했습니다. 핵심은 CHAI(Critique-based Human-AI Oversight)로, 전문가가 모델 생성 캡션을 비판·수정하는 방식으로 주석 효율을 높이고, 이 과정에서 얻은 선호 데이터로 Qwen3-VL을 SFT/DPO/추론 스케일링으로 학습해 Gemini-3.1-Pro를 능가하는 성능을 달성했습니다. 다만 전문가 감독 비용이 필요하고, 영화·광고 등 특정 도메인에 최적화되어 일반 동영상에서의 일반화는 추가 검증이 필요합니다.

Carnegie Mellon University

Comments

— 첫 댓글을 남겨보세요 —