← Back to feed
Papers·1주 전

DeepMind, 다차원 동시 스케일링을 정확히 예측하는 통합 신경망 스케일링 법칙 UNSL 제안

DeepMind, 다차원 동시 스케일링을 정확히 예측하는 통합 신경망 스케일링 법칙 UNSL 제안

DeepMind가 모델 파라미터 수, 데이터셋 크기, 학습 스텝, 추론 스텝, 컴퓨트, 하이퍼파라미터 등 여러 차원이 동시에 변할 때 성능을 정확히 예측하는 단일 함수 형태 UNSL(Unified Neural Scaling Law)을 발표했습니다. 기존 스케일링 법칙 대비 비전, 언어, 수학, 강화학습 등 다양한 태스크에서 외삽 정확도가 크게 향상되었습니다. 단, 함수 형태가 복잡해 실제 활용 시 피팅 비용이 추가로 든다는 점은 고려할 만합니다.

DeepMind 팀이 모델 크기, 데이터, 학습 시간 등 여러 요소를 동시에 바꿨을 때 성능을 예측하는 통합 스케일링 법칙 UNSL을 공개했습니다.

핵심 결론

  • 태스크비전, 언어, 수학, 강화학습 등 다양한 upstream/downstream 태스크에서 기존 스케일링 법칙 대비 외삽 오차를 크게 줄였습니다.
  • 비교기존 단일-차원 스케일링 법칙(예: Chinchilla)보다 다차원 동시 변화 시 예측 정확도가 현저히 높습니다.

방법

  • 함수 형태파라미터 수, 데이터 크기, 스텝 수, 컴퓨트 등 여러 변수를 포함한 단일 파라메트릭 함수를 제안합니다.
  • 피팅다양한 아키텍처와 태스크에 걸쳐 공통된 함수 형태로 피팅 가능하며, 외삽 시에도 일관된 정확도를 보입니다.
  • 기존 Chinchilla scaling law가 주로 데이터와 파라미터의 2차원에 집중한 반면, UNSL은 더 많은 차원을 동시에 다룹니다.

한계·조건

  • 복잡도함수 형태에 많은 파라미터가 포함되어 있어, 피팅에 충분한 데이터와 계산이 필요할 수 있습니다.
  • 범위제안된 함수가 모든 아키텍처나 태스크에 일반화될 수 있는지는 추가 검증이 필요합니다.
  • 코드논문에서 구체적인 함수 형태와 피팅 절차는 공개되었으나, 학습 코드나 사전 학습된 스케일링 계수는 아직 공개되지 않았습니다.

편집자 한 줄

스케일링 법칙 연구는 실용적인 모델 설계 가이드로 이어질 수 있어 주목할 만합니다. 다만 함수 형태가 복잡해 실제 활용까지는 추가 간소화가 필요해 보입니다.

  • #scaling-laws
  • #deepmind
  • #unsupervised-learning
  • #multi-task
Deepmind
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —