← Back to feed
Papers·어제

ByteDance Seed, 동적 상태 병합으로 장문 성능 개선한 DLA 공개 — 16개 데이터셋 SOTA

ByteDance Seed, 동적 상태 병합으로 장문 성능 개선한 DLA 공개 — 16개 데이터셋 SOTA

ByteDance Seed 팀이 다중 상태 선형 어텐션의 고정 병합 정책 한계를 해결하는 DLA 프레임워크를 제안했습니다. 토큰 중요도에 따라 상태 경계를 동적으로 조정하는 Information-Aware Dynamic State Merging과 용량 제한 메모리 모델링을 도입해, 16개 데이터셋 평가에서 기존 방법 대비 일관된 성능 우위를 보였습니다. 다만 두 선형 어텐션 모델 기반 사전학습 결과라 아키텍처 일반화는 추가 검증이 필요합니다.

ByteDance Seed 팀이 다중 상태 선형 어텐션의 고정 병합 정책 한계를 동적 상태 병합으로 해결한 DLA 프레임워크를 공개했습니다.

핵심 결론

  • 벤치16개 데이터셋(언어 모델링, 장문 QA, 요약 등)에서 기존 multi-state linear attention 대비 일관된 성능 우위.
  • 모델두 가지 선형 어텐션 변형(Mamba-2 기반, GLA 기반)에 DLA를 적용해 사전학습 후 평가.

방법

  • 동적 병합토큰 수준 정보 변화량에 따라 상태 경계를 적응적으로 결정. 의미 전이 구간은 고해상도 유지, 안정 구간은 과감히 요약.
  • 용량 제한고정 크기의 시간 순서 상태 캐시를 유지하며, 인접 저정보 상태를 선택적으로 병합해 메모리 증가를 억제.

한계·조건

  • 일반화두 가지 선형 어텐션 모델에서만 검증되어 다른 변형(예: RWKV, RetNet)에서도 유효할지는 미지수.
  • 코드논문 내 코드 공개 언급 없음 — 재현성은 아직 불확실.

편집자 한 줄

동적 병합이 단순히 고정 임계값보다 나은 건 직관적이지만, 정보 변화량 측정 자체의 계산 비용이 추가로 든다는 점은 염두에 둘 만합니다.

  • #linear-attention
  • #long-context
  • #memory
  • #bytedance
ByteDance Seed
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —