Hypes·5개월 전
Noam Brown "벤치마크 성능은 테스트타임 컴퓨팅 함수" — ARC-AGI 교훈 재조명
Noam Brown이 ARC-AGI가 깨달은 중요한 교훈은 "벤치마크 성능이 테스트타임 컴퓨팅의 함수"라는 점이라고 짚었네요. OpenAI가 단일 숫자로 결과를 공개하지만, 이상적으로 모든 평가는 x축(테스트타임 컴퓨팅)을 가져야 한다고. 최근 o1·o3 등 추론 모델이 테스트타임 스케일링을 강조하는 흐름과 맞닿아 있습니다.
- #noam-brown
- #arc-agi
- #benchmark
- #test-time-compute
- #openai
Noam Brown@polynoamial