← Back to feed
Papers·3주 전

Apple, 무작위 교차-층 어텐션으로 KV 캐시 메모리 절반으로 줄이다

Apple, 무작위 교차-층 어텐션으로 KV 캐시 메모리 절반으로 줄이다

Apple 연구진이 트랜스포머 추론 시 KV 캐시 메모리 사용량을 줄이는 새로운 훈련 방법을 제안했습니다. 기존의 시간 축 압축·제거와 달리 깊이(depth) 축에서 최적화를 시도했는데, 각 층이 무작위로 자신 또는 이전 층의 KV 상태를 참조하도록 훈련합니다. 이 방식은 사전 훈련이나 파인튜닝 시 적용 가능하며, 데이터가 제한된 큰 모델에서는 정규화 효과로 성능 유지 또는 개선까지 보였습니다. 단, 추론 시 하드웨어에 따라 유연한 캐시 공유 전략을 선택할 수 있다는 점이 핵심이지만, 실제 배포 환경에서의 속도와 정확성 트레이드오프는 추가 검증이 필요합니다.

Apple

Comments

— 첫 댓글을 남겨보세요 —