Papers·1개월 전

GRASP: 290K QA 쌍으로 사회적 추론 학습 — 시선·제스처 기반 멀티모달 개선

UIUC 팀이 다중 인물 비디오에서 '누가 누구와 상호작용하는지'를 추론하는 GRASP 데이터셋과 Social Grounding Reward (SGR) 학습 신호를 공개했습니다. 46K 비디오(749시간)에 걸쳐 시선·손짓·결합 이벤트를 포함한 16개 범주로 290K QA 쌍을 구성했고, SGR로 파인튜닝한 MLLM이 GRASP-Bench에서 성능을 개선하면서도 기존 사회적 QA 벤치마크의 zero-shot 성능을 유지했습니다. 다만 데이터셋 규모가 크지만 주석이 자동 생성되었을 가능성이 있어 재현성 확인이 필요합니다.

#multimodal
#social-reasoning
#dataset
#uiuc
#gaze

University of Illinois at Urbana-Champaign

원문 보기 →

GRASP: 290K QA 쌍으로 사회적 추론 학습 — 시선·제스처 기반 멀티모달 개선

Comments