Papers·1개월 전

Omni-Persona: 최초의 전모달 개인화 벤치마크 — 텍스트·이미지·오디오 통합 평가

서울대 연구팀이 텍스트, 이미지, 오디오를 모두 포함하는 전모달 개인화 벤치마크 Omni-Persona를 공개했습니다. 4개 태스크 그룹, 18개 세부 태스크, 약 750개 아이템으로 구성되며, 부재-페르소나 쿼리를 포함한 Calibrated Accuracy(Cal) 지표로 접지(grounding) 행동을 진단합니다. 실험 결과, 오픈소스 모델은 오디오-비주얼 접지 격차를 보이며 RLVR이 이를 일부 개선하지만 보수적 행동으로 수렴하고, SFT는 대규모 정답 데이터 구성의 한계를 드러냅니다. 흥미로운 포인트는 정답률과 파라미터 규모만으로는 환각과 캘리브레이션을 예측할 수 없다는 점입니다.

#personalization
#benchmark
#multimodal
#seoul-national-university

Seoul National University

원문 보기 →

Omni-Persona: 최초의 전모달 개인화 벤치마크 — 텍스트·이미지·오디오 통합 평가

Comments