Papers·1개월 전

현대 오픈 LLM 활성값 최대 크기 분석 — Qwen3.5 10^2 vs Gemma3 7×10^5, MoE가 dense보다 14~23배 낮아

Baidu 연구팀이 8개 오픈 패밀리 27개 체크포인트를 대상으로 활성값 최대 크기를 측정한 결과, 같은 파라미터 수에서도 Qwen3.5와 MoE 모델은 10^2~10^3 범위인 반면 Gemma3-27B-it은 ~7×10^5로 4자릿수 차이가 났습니다. MoE 체크포인트는 dense 대비 최대값이 14.0~23.4배 낮았고, 잔차 스트림이 24개 중 22개에서 최대값을 기록했습니다. 저자들은 활성값 최대 크기가 단순한 모델 크기의 부산물이 아니라 패밀리·아키텍처·훈련 단계에 의존하는 속성이라며, 저비트 배포 전에 측정·공개할 것을 권고합니다. 코드는 공개되었으나 측정 파이프라인이 5000샘플 다중 도메인 코퍼스 기반이라는 점과 INT-8 sanity check만 수행된 점은 한계입니다.

#activation
#quantization
#llm
#baidu
#moe

BAIDU

원문 보기 →

현대 오픈 LLM 활성값 최대 크기 분석 — Qwen3.5 10^2 vs Gemma3 7×10^5, MoE가 dense보다 14~23배 낮아

Comments