← Back to feed
Hypes·5개월 전

Noam Brown "벤치마크 성능은 테스트타임 컴퓨팅 함수" — ARC-AGI 교훈 재조명

Noam Brown이 ARC-AGI가 깨달은 중요한 교훈은 "벤치마크 성능이 테스트타임 컴퓨팅의 함수"라는 점이라고 짚었네요. OpenAI가 단일 숫자로 결과를 공개하지만, 이상적으로 모든 평가는 x축(테스트타임 컴퓨팅)을 가져야 한다고. 최근 o1·o3 등 추론 모델이 테스트타임 스케일링을 강조하는 흐름과 맞닿아 있습니다.

  • #noam-brown
  • #arc-agi
  • #benchmark
  • #test-time-compute
  • #openai
Noam Brown
Noam Brown@polynoamial
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —