← Back to feed
Hypes·2개월 전

Karpathy, nanochat 학습 2시간 단축 — AI 에이전트가 자동 튜닝까지

Karpathy, nanochat 학습 2시간 단축 — AI 에이전트가 자동 튜닝까지

Karpathy 가 nanochat(GPT-2 급 모델) 학습 시간을 8XH100 노드 기준 약 3시간에서 2시간으로 줄였다고 밝혔네요. 가장 큰 요인은 FineWeb-edu 에서 NVIDIA ClimbMix 데이터셋으로 전환한 점. 흥미로운 건 최근엔 AI 에이전트가 nanochat 을 자동으로 개선하게 해서, 12시간 만에 validation loss 를 0.862→0.858 로 낮추는 등 '메타 셋업' 최적화에 더 공을 들이고 있다는 점. Karpathy 본인은 '포스트 AGI 느낌'이라며 한숨 돌리겠다고.

  • #andrej karpathy
  • #nanochat
  • #nvidia
  • #climbmix
  • #ai agents
Andrej Karpathy
Andrej Karpathy@karpathy
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —