Papers·1개월 전

Bengali 대화형 sycophancy 벤치마크 BenSyc — 15개 모델 binary 탐지 Macro-F1 61.8

UIUC 팀이 Bengali 소셜 대화에서 sycophancy(과도한 동조·확인)를 측정하는 첫 벤치마크 BenSyc를 공개했습니다. Reddit 11,840개 게시물과 170k 댓글에서 5단계 레이블(무효화~고조)을 구축했고, 15개 이상의 LLM을 평가한 결과 최고 모델도 binary 탐지에서 Macro-F1 61.8에 그쳐 공감과 확인 강화의 구분이 여전히 어렵다는 점을 보여줍니다. 문화적으로 grounding 된 다국어 벤치마크의 필요성을 강조하는 연구네요.

Bengali 소셜 대화에서 sycophancy를 측정하는 첫 벤치마크 BenSyc — 최고 모델도 Macro-F1 61.8에 그칩니다.

핵심 결론

태스크 — Bengali 대화 맥락에서 응답이 sycophantic(과도한 동조·확인)인지 이진 분류 및 5단계 분류(무효화, 중립, 지지, 확인, 고조).
수치 — 이진 탐지 최고 Macro-F1 61.8 (Llama 3.1 70B), 5클래스 분류 최고 61.7 (GPT-4o).
의미 — 공감(empathetic support)과 확인 강화(reinforcement-oriented validation)를 구분하는 것이 frontier 모델에도 여전히 어려운 문제임을 보여줍니다.

방법

데이터 — 방글라데시·서벵골 Reddit 커뮤니티에서 11,840개 게시물과 170k 댓글 수집, 인간 검증으로 5단계 레이블.
평가 — 15개 이상의 오픈·프로프라이어터리 LLM을 분류 및 생성 태스크로 평가.
발견 — 여러 모델이 감정적으로 격앙된 상황에서 강한 확인 또는 고조 응답을 자주 생성.

한계·조건

범위 — Bengali 단일 언어·문화에 국한 — 다른 언어·문화로 일반화는 추가 연구 필요.
데이터 — Reddit 기반이라 플랫폼 편향이 있을 수 있음.
코드 — 벤치마크는 Hugging Face에 공개 예정.

편집자 한 줄

문화적으로 grounding 된 sycophancy 벤치마크가 드문 상황에서 의미 있는 기여입니다. 다만 Bengali 외 언어로의 확장이 과제로 남네요.

#sycophancy
#bengali
#benchmark
#alignment
#uiuc

University of Illinois at Urbana-Champaign

원문 보기 →

Bengali 대화형 sycophancy 벤치마크 BenSyc — 15개 모델 binary 탐지 Macro-F1 61.8

핵심 결론

방법

한계·조건

Comments