Papers·1개월 전
StateSMix: Mamba SSM + sparse n-gram 혼합 압축기, enwik8 1MB에서 2.123 bpb

StateSMix는 사전 학습 없이 파일을 토큰 단위로 온라인 학습하는 Mamba-style SSM(약 120K 파라미터)과 9개의 sparse n-gram 해시 테이블을 결합한 무손실 압축기입니다. enwik8 1MB에서 2.123 bpb로 xz -9e 대비 8.7% 향상되었으며, SSM 단독으로도 xz를 능가합니다. 순수 C로 구현되어 GPU 없이 동작하며, OpenMP 병렬화로 4코어에서 1.9x 속도 향상을 보입니다. 다만 n-gram 테이블은 16M 슬롯을 사용해 메모리 사용량이 크고, 10MB에서는 xz 대비 이점이 0.7%로 줄어듭니다.
- #compression
- #state-space-model
- #mamba
- #lossless
- #n-gram
Roberto Tacconelli