News·1개월 전

METR 시간 지평 벤치마크 추세 — 로그 이차 vs. 조각별 선형 모델 비교

METR 태스크 완료 시간 지평 데이터를 로그 선형, 로그 이차, 조각별 로그 선형 모델로 피팅한 결과, 2024년 3~4월에 분절점을 둔 조각별 모델이 AIC 기준 가장 우수했습니다. 2029년에 같은 비율의 가속 점프가 있다는 가상 시나리오 그래프도 함께 제시되었습니다.

METR 태스크 완료 시간 지평 데이터를 여러 모델로 피팅해 추세를 비교한 분석입니다.

골자

데이터 — METR의 공개 프런티어 언어모델 태스크 완료 시간 지평(50%, 80% 성공률)을 로그 스케일로 플롯.
모델 비교 — 로그 선형, 로그 이차, 조각별 로그 선형(분절점 자동 탐색) 세 모델을 AIC로 비교.
최적 모델 — 조각별 로그 선형 모델이 가장 낮은 AIC(더 나은 적합)를 기록. 분절점은 50% 지평에서 2024년 3월, 80% 지평에서 2024년 4월.

배경·맥락

METR 시간 지평은 AI 에이전트가 주어진 신뢰도로 성공할 것으로 예측되는 태스크 지속 시간(인간 전문가 완료 시간 기준)을 측정합니다.
2024년 초반에 가속이 관찰되었으며, 이에 대한 조각별 모델이 단순 로그 선형이나 로그 이차보다 데이터를 더 잘 설명합니다.

향후·가상 시나리오

2029년에 2024년 초와 같은 비율의 두 번째 가속 점프가 있다는 가상 그래프가 '재미로' 제시되었습니다.

편집자 한 줄

AIC 비교로 과적합 우려를 줄인 점은 인상적이지만, 분절점이 단 두 개의 데이터 포인트(2024년 초)에 의존한다는 한계도 있습니다.

#metr
#benchmarks
#ai-timelines
#extrapolation
#time-horizons

LessWrong

원문 보기 →

METR 시간 지평 벤치마크 추세 — 로그 이차 vs. 조각별 선형 모델 비교

골자

배경·맥락

향후·가상 시나리오

Comments