Papers·1개월 전

McGill NLP, 모델 성능 예측을 위한 프록시 메트릭 — cross-entropy 대비 Spearman 0.81

McGill NLP 그룹이 언어 모델의 성능을 예측하는 새로운 프록시 메트릭을 제안했습니다. 전문가가 작성한 솔루션에 대한 모델의 다음 토큰 분포에서 entropy, top-k 정확도, expert token rank 같은 통계를 집계해 프록시를 구성합니다. 세 가지 설정에서 cross-entropy loss 기반 예측보다 일관되게 우수했습니다. 1) 이종 추론 모델군 간 순위 예측에서 Spearman Rho 0.81 (loss 기반 0.36 대비). 2) 사전학습 데이터 선택에서 직접 평가 대비 약 10,000배 적은 계산으로 25개 후보 코퍼스를 신뢰성 있게 순위화. 3) 훈련 중 성능 예측에서 18배 compute 범위에 걸쳐 오차를 절반으로 줄였습니다. 단, 프록시 구축에 전문가 솔루션이 필요하며, 도메인 일반성은 추가 검증이 필요합니다.

#language-model
#evaluation
#proxy-metric
#mcgill-nlp

McGill NLP Group

원문 보기 →

McGill NLP, 모델 성능 예측을 위한 프록시 메트릭 — cross-entropy 대비 Spearman 0.81

Comments