Papers·1개월 전

N-gram Memory: 훈련 없는 플러그인 모듈로 Qwen3 성능 최대 3.03점 향상

Nanjing University 연구진이 별도 훈련 없이 사전학습된 토큰 임베딩을 활용해 N-gram 표현을 구성하는 N-gram Memory (NGM) 모듈을 제안했습니다. 기존 MoE나 학습 기반 메모리와 달리 추가 파라미터나 검색 파이프라인이 필요 없으며, Cosine-Gated Memory Injector로 비모수적 게이팅을 통해 컨텍스트 표현에 주입합니다. Qwen3 0.6B~14B 모델군에서 8개 벤치마크 평균 0.5~1.2점 향상, 특히 코드 생성(LiveCodeBench +3.0)과 지식 집약적 태스크(GPQA +3.03)에서 두드러진 개선을 보였습니다. 다만 실험은 Qwen3 계열에 한정되었고, 다른 아키텍처에서의 일반화 가능성은 추가 검증이 필요합니다.

#n-gram
#memory
#qwen3
#training-free
#nlp

Nanjing University

원문 보기 →

N-gram Memory: 훈련 없는 플러그인 모듈로 Qwen3 성능 최대 3.03점 향상

Comments