Papers·6일 전

Rutgers, LLM 내 massive activation의 기원 규명 — ME Layer 식별 및 완화 방법 제안

Rutgers 대학 연구팀이 LLM에서 massive activation이 처음 발생하는 계층을 Massive Emergence Layer (ME Layer)로 명명하고, 이 현상이 RMSNorm과 FFN 파라미터에 의해 유발됨을 밝혔습니다. ME Layer 이후 massive activation 토큰의 표현이 층 간에 거의 불변하게 되어 attention 모듈로 전달되는 hidden representation의 다양성을 줄인다는 점을 지적하며, 이 경직성을 완화하는 간단한 방법을 제안했습니다. 제안 방법은 학습 없이 또는 fine-tuning 설정에서 instruction following과 math reasoning 등 여러 태스크에서 성능을 일관되게 개선했으며, attention sink 현상도 완화하는 것으로 나타났습니다.

#llm
#massive-activation
#attention-sink
#rutgers

Rutgers University

원문 보기 →

Rutgers, LLM 내 massive activation의 기원 규명 — ME Layer 식별 및 완화 방법 제안

Comments