Papers·1개월 전

ThriftAttention — FP4 추론에서 5% 블록만 FP16으로 계산해 89.1% 성능 격차 회복

Blackwell GPU에서 FP4 양자화 attention의 장기 컨텍스트 품질 저하 문제를 해결한 ThriftAttention이 공개되었습니다. 중요 query-key 블록 쌍만 FP16으로 계산하고 나머지는 FP4로 처리하는 방식으로, 5% 블록만 FP16으로 계산해 평균 89.1%의 FP4-to-FP16 성능 격차를 회복했습니다. 코드는 GitHub에 공개되어 있습니다.

Blackwell GPU에서 FP4 양자화 attention의 장기 컨텍스트 품질 저하를 해결한 ThriftAttention이 공개되었습니다.

핵심 결론

성능 — 5%의 query-key 블록만 FP16으로 계산해 FP4 대비 평균 89.1%의 성능 격차를 회복합니다.
벤치 — 다양한 long-context 벤치마크와 모델 패밀리에서 일관된 개선을 보였습니다.

방법

두 단계 — 먼저 중요 query-key 블록 쌍을 빠르게 선별하는 휴리스틱을 적용하고, 선별된 블록은 FP16, 나머지는 FP4로 계산한 뒤 online softmax로 병합합니다.
양자화 오류가 중요 토큰이 포함된 소수 블록에 집중된다는 관찰에 기반합니다.

한계·조건

하드웨어 — Blackwell GPU의 block-scaled 양자화 기능을 활용하므로 다른 아키텍처에서는 직접 적용이 어려울 수 있습니다.
코드 — GitHub에 공개되어 있어 재현 가능합니다.

편집자 한 줄

FP4 추론의 실용성을 높이는 방향으로, 특히 시퀀스 길이가 길어질수록 이점이 커진다는 점이 흥미롭습니다.

#attention
#quantization
#long-context
#blackwell
#thriftattention

Joe Sharratt

원문 보기 →

ThriftAttention — FP4 추론에서 5% 블록만 FP16으로 계산해 89.1% 성능 격차 회복

핵심 결론

방법

한계·조건

Comments