News·3시간 전

2023-2031 모델 크기 스케일링 추정 — 2031년 1.4조 파라미터

LessWrong 게시글이 HBM 읽기 속도와 파이프라인 제약을 바탕으로 2023~2031년 실현 가능한 모델 크기를 추정했습니다. 2026년 10T(8x sparsity), 2028년 240T(30x sparsity), 2031년 1.4조(30x sparsity) 파라미터에 도달하며, 2027년 이후에는 사전학습 데이터 부족으로 모델 크기가 추가로 4배 커질 것으로 예측합니다.

HBM 읽기 속도와 파이프라인 병목을 고려해 연도별 실현 가능한 모델 크기를 추정한 분석입니다.

골자

2026년 — 10T 파라미터, 8x sparsity, Oberon 랙, 1.3e27 FLOPs로 학습.
2028년 — 240T 파라미터, 30x sparsity, Kyber 랙, 사전학습 컴퓨트 충분.
2031년 — 1.4조 파라미터, 30x sparsity, 8x Kyber Feynman 시스템, 2.2e29 FLOPs 학습.

배경·맥락

제약 조건 — 토큰 생성 속도는 HBM 스택 전체 읽기 시간 × 파이프라인 단계 수에 의해 결정됩니다.
데이터 부족 — 2027년부터 사전학습 데이터 부족으로 모델 크기가 추가로 4배 커져야 하며, 2031년 모델은 무제한 데이터 대비 4배 큽니다.

HBM 스택 읽기 시간

H100 — 5스택 8-Hi HBM3, 20ms.
H200 — 6스택 12-Hi HBM3, 30ms.
B200/GB200 — 4스택 8-Hi HBM3E, 24ms.
GB300 — 4스택 12-Hi HBM3E, 36ms.

편집자 한 줄

추정에 많은 가정이 포함되어 있지만, HBM 대역폭이 모델 크기의 핵심 병목임을 구체적으로 보여주는 분석입니다.

#model-scaling
#hbm
#inference
#compute
#lesswrong

LessWrong

원문 보기 →

2023-2031 모델 크기 스케일링 추정 — 2031년 1.4조 파라미터

골자

배경·맥락

HBM 스택 읽기 시간

Comments