Papers·어제
xLSTM, Mamba-2, Gated DeltaNet 비교 — 코드·시계열에서 xLSTM 우위, 메모리 추적이 핵심

xLSTM, Mamba-2, Gated DeltaNet 세 subquadratic 아키텍처를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교한 결과, xLSTM이 전반적으로 가장 강력한 성능을 보였습니다. xLSTM의 게이팅 방식이 더 유연하고 안정적인 메모리 보정을 가능하게 하며, 이는 복잡한 의존성 태스크에서의 이점으로 이어집니다. 단, 실험은 특정 규모·데이터셋에 국한되어 일반화에는 추가 검증이 필요합니다.
세 가지 subquadratic 아키텍처(xLSTM, Mamba-2, Gated DeltaNet)를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교했을 때 xLSTM이 가장 좋은 성능을 냈습니다.
핵심 결론
- 성능 — 코드 모델 사전학습과 증류, 시계열 사전학습 모두에서 xLSTM이 Mamba-2와 Gated DeltaNet을 능가했습니다.
- 이유 — xLSTM의 게이팅 구조가 더 유연하고 안정적인 메모리 보정을 가능하게 하여 복잡한 의존성 추적에 유리합니다.
방법
- 비교 대상 — xLSTM, Mamba-2, Gated DeltaNet — 세 가지 subquadratic 아키텍처를 동일한 실험 프로토콜로 비교했습니다.
- 태스크 — 코드 모델 사전학습(CodeParrot 데이터), LLM으로부터의 코드 모델 증류, 시계열 기초 모델 사전학습(Monash 데이터) 등 세 가지 복잡 의존성 태스크.
- 분석 — 통합된 형태로 아키텍처를 재구성해 상태 추적과 메모리 동역학을 분석, xLSTM의 게이팅이 더 강력한 메모리 보정을 제공함을 확인했습니다.
한계·조건
- 규모 — 실험은 비교적 작은 규모(수억 파라미터)에서 수행되어 대규모 모델로의 일반화는 추가 검증이 필요합니다.
- 벤치 — 코드 모델은 특정 데이터셋(CodeParrot)과 태스크(증류)에 국한되어 있으며, 시계열도 Monash 데이터셋 한정입니다.
- 코드 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
세 아키텍처를 동일 조건에서 비교한 점은 유용하지만, 실험 규모가 작아 'xLSTM이 항상 낫다'로 확대 해석하기는 조심스럽습니다.
- #xLSTM
- #mamba-2
- #gated-deltanet
- #subquadratic
- #sequence-modeling
Anamaria-Roberta Hartl