Papers·3일 전
Attention을 MLP 동적 파라미터로 대체 — 선형 복잡도로 Transformer 수준의 전역 모델링 가능

Tsinghua-LeapLab 팀이 attention을 동적 파라미터를 가진 MLP로 수학적으로 재정의하여, 선형 복잡도로 Transformer 수준의 전역 시퀀스 모델링이 가능함을 보였습니다. 기존 attention의 2차 복잡도를 피하면서도 동적 파라미터가 전역 맥락의 압축 표현 역할을 한다는 직관에 기반합니다. 비전 모델 실험에서 explicit attention을 대체할 수 있음을 확인했으며, 코드도 공개되었습니다.
- #attention
- #linear-complexity
- #transformer
- #tsinghua
Tsinghua-LeapLab