← Back to feed
Papers·3일 전

카자흐스탄 영화 리뷰 10만 건 공개 — mBERT, XLM-R이 감성 분류에서 BoW 대비 우세

카자흐스탄 영화 리뷰 10만 건 공개 — mBERT, XLM-R이 감성 분류에서 BoW 대비 우세

카자흐스탄 영화 리뷰 플랫폼 kino.kz에서 2001~2025년 수집된 100,502건의 리뷰 데이터셋이 공개됐습니다. 주로 러시아어, 일부 카자흐어 및 코드 스위칭 텍스트로 구성되며, 감성 극성(3분류)과 평점(5분류) 태스크가 정의됐습니다. mBERT, XLM-RoBERTa, RemBERT 같은 트랜스포머 모델이 BoW/TF-IDF 기반 베이스라인보다 극성 분류에서 일관되게 나은 성능을 보였으나, 평점 분류는 클래스 불균형과 인접 등급 간 미세한 차이로 인해 여전히 어려운 과제로 남았습니다.

Rustem Yeshpanov

Comments

— 첫 댓글을 남겨보세요 —