← Back to feed
Papers·어제

xLSTM, Mamba-2, Gated DeltaNet 비교 — 코드·시계열에서 xLSTM 우위, 메모리 추적이 핵심

xLSTM, Mamba-2, Gated DeltaNet 비교 — 코드·시계열에서 xLSTM 우위, 메모리 추적이 핵심

xLSTM, Mamba-2, Gated DeltaNet 세 subquadratic 아키텍처를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교한 결과, xLSTM이 전반적으로 가장 강력한 성능을 보였습니다. xLSTM의 게이팅 방식이 더 유연하고 안정적인 메모리 보정을 가능하게 하며, 이는 복잡한 의존성 태스크에서의 이점으로 이어집니다. 단, 실험은 특정 규모·데이터셋에 국한되어 일반화에는 추가 검증이 필요합니다.

세 가지 subquadratic 아키텍처(xLSTM, Mamba-2, Gated DeltaNet)를 코드 모델 사전학습·증류, 시계열 기초 모델에서 비교했을 때 xLSTM이 가장 좋은 성능을 냈습니다.

핵심 결론

  • 성능코드 모델 사전학습과 증류, 시계열 사전학습 모두에서 xLSTM이 Mamba-2와 Gated DeltaNet을 능가했습니다.
  • 이유xLSTM의 게이팅 구조가 더 유연하고 안정적인 메모리 보정을 가능하게 하여 복잡한 의존성 추적에 유리합니다.

방법

  • 비교 대상xLSTM, Mamba-2, Gated DeltaNet — 세 가지 subquadratic 아키텍처를 동일한 실험 프로토콜로 비교했습니다.
  • 태스크코드 모델 사전학습(CodeParrot 데이터), LLM으로부터의 코드 모델 증류, 시계열 기초 모델 사전학습(Monash 데이터) 등 세 가지 복잡 의존성 태스크.
  • 분석통합된 형태로 아키텍처를 재구성해 상태 추적과 메모리 동역학을 분석, xLSTM의 게이팅이 더 강력한 메모리 보정을 제공함을 확인했습니다.

한계·조건

  • 규모실험은 비교적 작은 규모(수억 파라미터)에서 수행되어 대규모 모델로의 일반화는 추가 검증이 필요합니다.
  • 벤치코드 모델은 특정 데이터셋(CodeParrot)과 태스크(증류)에 국한되어 있으며, 시계열도 Monash 데이터셋 한정입니다.
  • 코드코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

세 아키텍처를 동일 조건에서 비교한 점은 유용하지만, 실험 규모가 작아 'xLSTM이 항상 낫다'로 확대 해석하기는 조심스럽습니다.

  • #xLSTM
  • #mamba-2
  • #gated-deltanet
  • #subquadratic
  • #sequence-modeling
Anamaria-Roberta Hartl
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —