← Back to feed
Papers·2주 전

모델 크기가 학습 가능한 태스크를 결정하는 이유 — 데이터 중심의 간섭 메커니즘

모델 크기가 학습 가능한 태스크를 결정하는 이유 — 데이터 중심의 간섭 메커니즘

OLMo 모델(4M~4B 파라미터) 실험을 통해 더 큰 모델이 작은 모델이 학습하지 못하는 드물고 복잡한 태스크를 학습할 수 있는 이유를 데이터 중심으로 설명했습니다. 핵심은 자원(뉴런) 경쟁으로, 작은 모델은 고빈도·저복잡도 태스크에 뉴런을 할당해 희소·복잡 태스크 성능이 낮은 반면, 큰 모델은 충분한 자원을 할당해 그래디언트 간섭을 줄이고 희소 태스크 특징을 덮어쓰지 않는다는 점입니다. 단, 이 결과는 합성 데이터와 OLMo 사전학습 실험에 기반하며 실제 분포에서의 일반화는 추가 검증이 필요합니다.

더 큰 모델이 작은 모델보다 더 다양한 태스크를 학습하는 현상을 데이터 경쟁과 그래디언트 간섭 관점에서 설명한 논문입니다.

핵심 결론

  • 주장파워-로 스케일링 법칙에 따르면 큰 모델은 작은 모델이 무한 데이터로도 학습하지 못하는 데이터 분포 일부를 학습할 수 있습니다.
  • 실험합성 데이터와 OLMo(4M~4B) 사전학습 실험에서 큰 모델만이 드물고 복잡한 태스크를 학습했습니다.

방법

  • 데이터 경쟁작은 모델은 고빈도·저복잡도 태스크에 자원(뉴런)을 할당해 희소·복잡 태스크 표현이 부족합니다.
  • 간섭 감소큰 모델은 공통 태스크에 충분한 자원을 할당해 해당 그래디언트가 약해지므로, 희소 태스크 특징이 덮어쓰이지 않습니다.
  • OLMo 실험에서 큰 모델이 더 많은 태스크 특징을 표현에 내장하고 태스크 간 그래디언트 간섭이 적음을 확인했습니다.

한계·조건

  • 데이터합성 데이터와 OLMo 사전학습 실험에 기반하며, 실제 분포에서의 일반화는 추가 검증이 필요합니다.
  • 범위파라미터 범위는 4M~4B로, 더 큰 모델(10B 이상)에서도 동일한 메커니즘이 지배적인지는 확인되지 않았습니다.

편집자 한 줄

모델 스케일링에 대한 데이터 중심 설명은 실용적이지만, 합성 태스크의 단순성이 실제 복잡한 분포에서도 유효할지는 의문입니다.

  • #scaling
  • #model-scaling
  • #data-competition
  • #gradient-interference
  • #olmo
Jing Huang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —