Papers·5일 전
SigmaScale: 학습된 스케일링 행렬로 SVD 기반 LLM 압축 성능 개선 — Llama 3.1 8B에서 perplexity 유지

Aalborg Universitet 팀이 SVD 기반 LLM 압축에서 활성화 인식 손실로 학습된 스케일링 행렬을 최적화하는 SigmaScale을 제안했습니다. Llama 3.1 8B Instruct와 Qwen3-8B 실험에서 기존 SVD 압축법과 perplexity 및 zero-shot 벤치마크에서 경쟁력 있는 성능을 보였습니다. 단, 압축률이 높을수록 성능 저하가 발생할 수 있으며, 특정 태스크에서만 우위를 보인 점이 한계입니다.
Aalborg Universitet 연구진이 SVD 기반 LLM 압축의 정밀도를 높이는 학습 가능한 스케일링 행렬을 도입했습니다.
핵심 결론
- 방법 — SigmaScale은 SVD 압축 전에 행과 열 방향의 스케일링 변환을 학습하여 가중치의 유효 고유 랭크를 낮춥니다.
- 성능 — Llama 3.1 8B Instruct에서 perplexity 기준 기존 SVD 압축법과 동등하거나 약간 우수, zero-shot 태스크에서는 일부 항목에서 개선.
- 상관관계 — 학습된 스케일링이 effective-rank entropy를 낮추며, 이 감소가 압축 손실과 강한 상관관계를 가집니다.
방법
- 구조 — 두 개의 학습 가능한 벡터로 대각 행·열 스케일링 행렬을 정의하고, 활성화 인식 압축 손실로 최적화합니다.
- 직관 — 분석적 유도 대신 학습을 통해 가중치 구조에 적응하는 유연한 저랭크 압축 경로를 제공합니다.
- SVD 후 truncation 전에 스케일링을 적용하여 정보 손실을 최소화하는 방식입니다.
한계·조건
- 범위 — Llama 3.1 8B와 Qwen3-8B 두 모델로만 검증, 더 큰 모델이나 다른 아키텍처에서의 일반화는 미확인.
- 비용 — 학습 과정이 추가되므로 순수 SVD보다 압축 파이프라인이 복잡해집니다.
- 코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
활성화 인식 스케일링 학습이라는 아이디어는 단순하지만, SVD 압축의 한계를 넓힐 수 있는 방향입니다.
- #llm-compression
- #svd
- #scaling
- #aalborg-universitet
Aalborg Universitet