← Back to feed
Papers·3일 전

Red Hat, Transformer 층 병렬 추론 프레임워크 SNLP 공개 — 0.5B 모델에서 2.3x 속도 향상

Red Hat, Transformer 층 병렬 추론 프레임워크 SNLP 공개 — 0.5B 모델에서 2.3x 속도 향상

Red Hat 팀이 Transformer의 층별 순차 의존성을 완화하는 Structured Newton Layer Parallelism (SNLP)을 제안했습니다. 잔차 방정식의 고정점 관점에서 Newton-style 업데이트를 사용하되, 층 Jacobian을 구조화된 근사(Identity Newton, HC Newton)로 대체해 안정성을 확보했습니다. nanochat-scale 실험에서 SNLP 정규화는 순차 perplexity를 4.7%~23.4% 개선했고, 추론 시 0.5B 모델에서 2.3x 속도 향상과 6.1% PPL 개선을 동시에 달성했습니다. 단, 사전 학습된 일반 모델에는 적용이 어렵고, 정확한 수렴은 순차 계산과 동일해져 일관된 추론 시간 스케일링을 보장하지 않습니다.

  • #transformer
  • #layer-parallelism
  • #inference-acceleration
  • #red-hat
  • #newton-method
Red Hat AI

Comments

— 첫 댓글을 남겨보세요 —