Papers·6일 전
Sessa: 어텐션을 순환 피드백 경로에 배치해 장기 의존성 개선 — 멱법칙 메모리 붕괴와 선택적 검색

Transformer와 상태공간모델(SSM)의 장기 문맥 한계를 극복하기 위해, Sessa는 어텐션을 순환 피드백 경로 안에 배치하는 새로운 디코더 구조를 제안합니다. 이를 통해 과거 토큰이 미래 상태에 영향을 미치는 경로가 여러 개 생겨, 단일 어텐션 읽기나 단일 순환 체인보다 긴 의존성을 잘 유지합니다. 이론적으로 Sessa는 멱법칙 메모리 붕괴(O(ℓ^{-β}), 0<β<1)를 달성하며, 선택적 검색에서도 Transformer나 Mamba보다 우수함을 증명했습니다. 실험에서도 장기 문맥 벤치마크에서 가장 강력한 성능을 보였고, 단기 언어 모델링에서도 경쟁력을 유지했습니다.
- #attention
- #state-space-models
- #long-context
- #mamba
- #sessa
Liubomyr Horbatko