Papers·1주 전
Delta Attention Residuals — 레이어 간 라우팅을 델타로 대체해 PPL 1.7~8.2% 개선

기존 Attention Residuals가 누적 hidden state의 중복으로 깊은 층에서 라우팅 붕괴(최대 가중치 약 0.2)를 겪는 문제를 지적하고, 각 서브레이어의 변화량(델타)에 어텐션을 적용하는 Delta Attention Residuals를 제안했습니다. 델타 표현은 구조적 다양성이 높아 더 높은 대비의 어텐션 분포(최대 가중치 약 0.6)를 만들어 선택적 라우팅이 가능하며, 220M~7.6B 스케일에서 표준 Residual과 Attention Residuals를 모두 능가하는 검증 perplexity 개선(1.7~8.2%)을 보였습니다. 사전학습된 체크포인트를 파인튜닝으로 변환 가능하며 코드가 공개되었습니다.
- #attention
- #residual-connections
- #delta-attention
- #routing
- #language-modeling
Cheng Luo