hypes.news
← Back to feed
Hypes·2주 전

Noam Brown: 'still the norm to compare reasoning models on evals by a single number' — 평가 방식 비판

Noam Brown이 1년이 지났는데도 추론 모델을 단일 숫자로 평가하는 관행이 여전하다며 놀라움을 표했다. 이는 최근 o1·o3 등 추론 모델이 쏟아지면서 단순 벤치마크 점수보다 실제 추론 능력의 다면성을 평가해야 한다는 업계 논의에 힘을 싣는다. 단일 지표 경쟁이 아닌, 세분화된 평가 기준이 필요하다는 신호로 읽힌다.

Noam Brown
Noam Brown@polynoamial

Comments

— 첫 댓글을 남겨보세요 —