Hypes·3개월 전
Karpathy GPT-2 재현 fp8 훈련 성능 개선 — "2.91시간, $20이면 가능"
Karpathy가 GPT-2 재현 훈련에 fp8을 적용해 'time to GPT-2'를 4.3% 개선, 2.91시간까지 줄였다고 밝혔네요. 8xH100 스팟 인스턴스로 약 $20이면 가능하다고. fp8이 이론만큼 쉽지 않았고, 실제 속도 향상은 7.3% 수준에 그쳤지만, 훈련 기간을 늘려 보상하면 순 5% 정도 이득을 봤다고 합니다. "1시간 아래로 내려갈 수 있을 것"이라며 추가 최적화를 예고했네요.
- #karpathy
- #gpt-2
- #fp8
- #training
- #h100
Andrej Karpathy@karpathy