← Back to feed
News·6일 전

METR 시간 지평 벤치마크 추세 — 로그 이차 vs. 조각별 선형 모델 비교

METR 시간 지평 벤치마크 추세 — 로그 이차 vs. 조각별 선형 모델 비교

METR 태스크 완료 시간 지평 데이터를 로그 선형, 로그 이차, 조각별 로그 선형 모델로 피팅한 결과, 2024년 3~4월에 분절점을 둔 조각별 모델이 AIC 기준 가장 우수했습니다. 2029년에 같은 비율의 가속 점프가 있다는 가상 시나리오 그래프도 함께 제시되었습니다.

METR 태스크 완료 시간 지평 데이터를 여러 모델로 피팅해 추세를 비교한 분석입니다.

골자

  • 데이터METR의 공개 프런티어 언어모델 태스크 완료 시간 지평(50%, 80% 성공률)을 로그 스케일로 플롯.
  • 모델 비교로그 선형, 로그 이차, 조각별 로그 선형(분절점 자동 탐색) 세 모델을 AIC로 비교.
  • 최적 모델조각별 로그 선형 모델이 가장 낮은 AIC(더 나은 적합)를 기록. 분절점은 50% 지평에서 2024년 3월, 80% 지평에서 2024년 4월.

배경·맥락

  • METR 시간 지평은 AI 에이전트가 주어진 신뢰도로 성공할 것으로 예측되는 태스크 지속 시간(인간 전문가 완료 시간 기준)을 측정합니다.
  • 2024년 초반에 가속이 관찰되었으며, 이에 대한 조각별 모델이 단순 로그 선형이나 로그 이차보다 데이터를 더 잘 설명합니다.

향후·가상 시나리오

  • 2029년에 2024년 초와 같은 비율의 두 번째 가속 점프가 있다는 가상 그래프가 '재미로' 제시되었습니다.

편집자 한 줄

AIC 비교로 과적합 우려를 줄인 점은 인상적이지만, 분절점이 단 두 개의 데이터 포인트(2024년 초)에 의존한다는 한계도 있습니다.

  • #metr
  • #benchmarks
  • #ai-timelines
  • #extrapolation
  • #time-horizons
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —