Hypes·2주 전
Noam Brown: 'still the norm to compare reasoning models on evals by a single number' — 평가 방식 비판
Noam Brown이 1년이 지났는데도 추론 모델을 단일 숫자로 평가하는 관행이 여전하다며 놀라움을 표했다. 이는 최근 o1·o3 등 추론 모델이 쏟아지면서 단순 벤치마크 점수보다 실제 추론 능력의 다면성을 평가해야 한다는 업계 논의에 힘을 싣는다. 단일 지표 경쟁이 아닌, 세분화된 평가 기준이 필요하다는 신호로 읽힌다.
- #noam-brown
- #reasoning-models
- #evals
- #benchmarks
Noam Brown@polynoamial