Papers·1개월 전

SigmaScale: 학습된 스케일링 행렬로 SVD 기반 LLM 압축 성능 개선 — Llama 3.1 8B에서 perplexity 유지

Aalborg Universitet 팀이 SVD 기반 LLM 압축에서 활성화 인식 손실로 학습된 스케일링 행렬을 최적화하는 SigmaScale을 제안했습니다. Llama 3.1 8B Instruct와 Qwen3-8B 실험에서 기존 SVD 압축법과 perplexity 및 zero-shot 벤치마크에서 경쟁력 있는 성능을 보였습니다. 단, 압축률이 높을수록 성능 저하가 발생할 수 있으며, 특정 태스크에서만 우위를 보인 점이 한계입니다.

Aalborg Universitet 연구진이 SVD 기반 LLM 압축의 정밀도를 높이는 학습 가능한 스케일링 행렬을 도입했습니다.

핵심 결론

방법 — SigmaScale은 SVD 압축 전에 행과 열 방향의 스케일링 변환을 학습하여 가중치의 유효 고유 랭크를 낮춥니다.
성능 — Llama 3.1 8B Instruct에서 perplexity 기준 기존 SVD 압축법과 동등하거나 약간 우수, zero-shot 태스크에서는 일부 항목에서 개선.
상관관계 — 학습된 스케일링이 effective-rank entropy를 낮추며, 이 감소가 압축 손실과 강한 상관관계를 가집니다.

방법

구조 — 두 개의 학습 가능한 벡터로 대각 행·열 스케일링 행렬을 정의하고, 활성화 인식 압축 손실로 최적화합니다.
직관 — 분석적 유도 대신 학습을 통해 가중치 구조에 적응하는 유연한 저랭크 압축 경로를 제공합니다.
SVD 후 truncation 전에 스케일링을 적용하여 정보 손실을 최소화하는 방식입니다.

한계·조건

범위 — Llama 3.1 8B와 Qwen3-8B 두 모델로만 검증, 더 큰 모델이나 다른 아키텍처에서의 일반화는 미확인.
비용 — 학습 과정이 추가되므로 순수 SVD보다 압축 파이프라인이 복잡해집니다.
코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

활성화 인식 스케일링 학습이라는 아이디어는 단순하지만, SVD 압축의 한계를 넓힐 수 있는 방향입니다.

#llm-compression
#svd
#scaling
#aalborg-universitet

Aalborg Universitet

원문 보기 →

SigmaScale: 학습된 스케일링 행렬로 SVD 기반 LLM 압축 성능 개선 — Llama 3.1 8B에서 perplexity 유지

핵심 결론

방법

한계·조건

Comments