← Back to feed
Papers·2일 전

UFP4: 균일 4비트 FP4 학습 레시피 — E2M1의 Shrinkage Bias 문제 해결

UFP4: 균일 4비트 FP4 학습 레시피 — E2M1의 Shrinkage Bias 문제 해결

inclusionAI 팀이 FP4 학습에서 E2M1 비균일 포맷이 가진 Shrinkage Bias(체계적 음수 반올림 오차)가 층을 거치며 누적되어 학습 불안정을 유발함을 규명하고, 균일 포맷(E1M2/INT4) 기반의 UFP4 레시피를 제안했습니다. Dense 1.5B, MoE 7.9B, 124B 규모에서 E2M1 대비 BF16 대비 손실 열화가 일관되게 낮았으며, 향후 가속기가 E1M2/INT4를 주요 학습 포맷으로 지원해야 한다고 주장합니다.

FP4 학습의 메모리·계산 비용 절감 효과를 높이려면 E2M1 대신 균일 4비트 포맷이 더 적합하다는 실증 연구입니다.

핵심 결론

  • 문제E2M1 비균일 포맷은 Shrinkage Bias라는 체계적 음수 반올림 오차를 가지며, 층을 거치며 곱셈적으로 누적되고 Random Hadamard Transform(RHT)에 의해 증폭됩니다.
  • 해결균일 포맷(E1M2/INT4)은 이러한 격자 기하 오차가 없어 RHT의 버킷 활용도 향상을 더 잘 활용합니다.
  • 성능Dense 1.5B, MoE 7.9B, MoE 124B 사전학습에서 UFP4는 E2M1 기반 베이스라인 대비 BF16 대비 손실 열화가 낮았으며, 스케일링 법칙 분석과 ablation으로 뒷받침됩니다.

방법

  • UFP4세 가지 학습 GEMM(forward, backward, weight gradient)에 모두 RHT를 적용하고, stochastic rounding은 dY(출력 기울기)에만 제한합니다.
  • 포맷E1M2/INT4 균일 4비트 그리드를 사용하며, E2M1의 비대칭 빈 문제를 회피합니다.
  • Shrinkage Bias를 수학적으로 정의하고, 실험적으로 bias 누적과 RHT 증폭을 확인했습니다.

한계·조건

  • 하드웨어현재 NVIDIA Blackwell/Rubin 및 AMD MI350 등 E2M1 중심 하드웨어에서 E1M2/INT4 지원은 제한적입니다.
  • 코드코드 공개 여부는 명시되지 않았습니다.
  • 소규모 모델(1.5B)에서도 효과가 확인되었지만, 124B 이상 초대형 모델에서의 추가 검증이 필요합니다.

편집자 한 줄

FP4 학습의 포맷 선택에 대한 근본적인 통찰을 제공하며, 차세대 AI 가속기 설계에 시사점이 큽니다.

  • #fp4
  • #training
  • #quantization
  • #inclusionai
  • #llm
inclusionAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —