Papers·1개월 전

SKIM: 스킬 압축으로 LLM 추론 효율 개선 — 30~60% 토큰 감소

SKIM은 LLM이 자주 호출하는 절차적 스킬(workflow, tool protocol)을 soft token으로 압축하는 적응형 다중 해상도 프레임워크입니다. 기존 문서 압축 방식과 달리 논리적 의존성을 보존하면서 스킬 복잡도에 따라 압축률을 조절합니다. 실험 결과, 기존 압축 방법보다 성능 저하 없이 토큰 길이를 30~60%로 줄였습니다. 코드는 GitHub에 공개되었습니다.

LLM이 자주 사용하는 절차적 스킬을 압축해 추론 비용을 줄이는 SKIM 프레임워크가 공개되었습니다.

핵심 결론

효과 — 스킬 토큰 길이를 원본의 30~60%로 압축하면서도 작업 성능을 유지, 기존 압축 기법보다 우수.
벤치 — 다양한 스킬(workflow, tool use)에서 평가, 압축률과 성능 간 트레이드오프가 개선됨.

방법

적응형 압축 — 스킬 복잡도에 따라 soft token 수를 다르게 할당하는 다중 해상도 접근.
절차 지식 보존 — 기존 문서 압축과 달리 workflow 내 논리적 의존성과 tool protocol을 유지하도록 설계.
경량 오프라인 — 자주 업데이트되는 커뮤니티 스킬에 대해 오프라인 압축이 가능해 실시간 부담이 적음.

한계·조건

압축률 — 스킬 종류에 따라 최적 압축률이 달라져 사전 튜닝이 필요할 수 있음.
코드 — GitHub에 공개 (https://github.com/bebr2/SKIM), 재현 가능.

편집자 한 줄

스킬 압축이라는 비교적 새로운 문제를 정형화하고 실용적인 해법을 제시한 점이 인상적입니다. 다만 압축된 soft token의 해석 가능성은 아직 과제로 남아 있습니다.

#llm
#compression
#skills
#efficiency
#soft-token

Changyue Wang

원문 보기 →

SKIM: 스킬 압축으로 LLM 추론 효율 개선 — 30~60% 토큰 감소

핵심 결론

방법

한계·조건

Comments