Papers·1개월 전

Red Hat, Transformer 층 병렬 추론 프레임워크 SNLP 공개 — 0.5B 모델에서 2.3x 속도 향상

Red Hat 팀이 Transformer의 층별 순차 의존성을 완화하는 Structured Newton Layer Parallelism (SNLP)을 제안했습니다. 잔차 방정식의 고정점 관점에서 Newton-style 업데이트를 사용하되, 층 Jacobian을 구조화된 근사(Identity Newton, HC Newton)로 대체해 안정성을 확보했습니다. nanochat-scale 실험에서 SNLP 정규화는 순차 perplexity를 4.7%~23.4% 개선했고, 추론 시 0.5B 모델에서 2.3x 속도 향상과 6.1% PPL 개선을 동시에 달성했습니다. 단, 사전 학습된 일반 모델에는 적용이 어렵고, 정확한 수렴은 순차 계산과 동일해져 일관된 추론 시간 스케일링을 보장하지 않습니다.

#transformer
#layer-parallelism
#inference-acceleration
#red-hat
#newton-method

Red Hat AI

원문 보기 →

Red Hat, Transformer 층 병렬 추론 프레임워크 SNLP 공개 — 0.5B 모델에서 2.3x 속도 향상

Comments