Papers·1개월 전

xLSTM, Mamba-2, Gated DeltaNet 비교 — 코드·시계열에서 xLSTM 우위, 메모리 추적이 핵심

xLSTM, Mamba-2, Gated DeltaNet 세 subquadratic 아키텍처를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교한 결과, xLSTM이 전반적으로 가장 강력한 성능을 보였습니다. xLSTM의 게이팅 방식이 더 유연하고 안정적인 메모리 보정을 가능하게 하며, 이는 복잡한 의존성 태스크에서의 이점으로 이어집니다. 단, 실험은 특정 규모·데이터셋에 국한되어 일반화에는 추가 검증이 필요합니다.

세 가지 subquadratic 아키텍처(xLSTM, Mamba-2, Gated DeltaNet)를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교했을 때 xLSTM이 가장 좋은 성능을 냈습니다.

핵심 결론

성능 — 코드 모델 사전학습과 증류, 시계열 사전학습 모두에서 xLSTM이 Mamba-2와 Gated DeltaNet을 능가했습니다.
이유 — xLSTM의 게이팅 구조가 더 유연하고 안정적인 메모리 보정을 가능하게 하여 복잡한 의존성 추적에 유리합니다.

방법

비교 대상 — xLSTM, Mamba-2, Gated DeltaNet — 세 가지 subquadratic 아키텍처를 동일한 실험 프로토콜로 비교했습니다.
태스크 — 코드 모델 사전학습(CodeParrot 데이터), LLM으로부터의 코드 모델 증류, 시계열 기초 모델 사전학습(Monash 데이터) 등 세 가지 복잡 의존성 태스크.
분석 — 통합된 형태로 아키텍처를 재구성해 상태 추적과 메모리 동역학을 분석, xLSTM의 게이팅이 더 강력한 메모리 보정을 제공함을 확인했습니다.

한계·조건

규모 — 실험은 비교적 작은 규모(수억 파라미터)에서 수행되어 대규모 모델로의 일반화는 추가 검증이 필요합니다.
벤치 — 코드 모델은 특정 데이터셋(CodeParrot)과 태스크(증류)에 국한되어 있으며, 시계열도 Monash 데이터셋 한정입니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

세 아키텍처를 동일 조건에서 비교한 점은 유용하지만, 실험 규모가 작아 'xLSTM이 항상 낫다'로 확대 해석하기는 조심스럽습니다.

#xLSTM
#mamba-2
#gated-deltanet
#subquadratic
#sequence-modeling

Anamaria-Roberta Hartl

원문 보기 →

xLSTM, Mamba-2, Gated DeltaNet 비교 — 코드·시계열에서 xLSTM 우위, 메모리 추적이 핵심

핵심 결론

방법

한계·조건

Comments