Papers·1주 전
LLM 임상 평가자 중심 경향 — Clock Drawing Test 에서 GPT-5 MAE 0.67, 그러나 극단 점수 체계적 압축

University of Florida 연구팀이 세 가지 LLM 계열(GPT-5 포함)을 Clock Drawing Test(CDT) 이미지 평가에 적용한 결과, zero-shot LLM은 tolerance-based agreement에서 경쟁력(GPT-5 within-1 accuracy 92%)을 보였으나 모든 모델이 중앙 경향 편향(systematic endpoint compression)을 보였습니다. 특히 임상적으로 중요한 극단 점수(0~1, 5~4)에서 과소·과대 예측이 발생했으며, few-shot 예시나 프롬프트 조정으로도 제거되지 않았습니다. Vision Transformer fine-tune 모델이 최고 캘리브레이션(MAE 0.52)을 달성했지만, LLM 기반 평가자는 고위험 선별 작업에서 사후 캘리브레이션이 필수적임을 시사합니다.
- #llm-as-judge
- #clinical-evaluation
- #calibration
- #gpt-5
- #university-of-florida
University of Florida