Hypes·2개월 전
Karpathy, nanochat 학습 2시간 단축 — AI 에이전트가 자동 튜닝까지

Karpathy 가 nanochat(GPT-2 급 모델) 학습 시간을 8XH100 노드 기준 약 3시간에서 2시간으로 줄였다고 밝혔네요. 가장 큰 요인은 FineWeb-edu 에서 NVIDIA ClimbMix 데이터셋으로 전환한 점. 흥미로운 건 최근엔 AI 에이전트가 nanochat 을 자동으로 개선하게 해서, 12시간 만에 validation loss 를 0.862→0.858 로 낮추는 등 '메타 셋업' 최적화에 더 공을 들이고 있다는 점. Karpathy 본인은 '포스트 AGI 느낌'이라며 한숨 돌리겠다고.
- #andrej karpathy
- #nanochat
- #nvidia
- #climbmix
- #ai agents
Andrej Karpathy@karpathy