Papers·1개월 전

ByteDance Seed, 동적 상태 병합으로 장문 성능 개선한 DLA 공개 — 16개 데이터셋 SOTA

ByteDance Seed 팀이 다중 상태 선형 어텐션의 고정 병합 정책 한계를 해결하는 DLA 프레임워크를 제안했습니다. 토큰 중요도에 따라 상태 경계를 동적으로 조정하는 Information-Aware Dynamic State Merging과 용량 제한 메모리 모델링을 도입해, 16개 데이터셋 평가에서 기존 방법 대비 일관된 성능 우위를 보였습니다. 다만 두 선형 어텐션 모델 기반 사전학습 결과라 아키텍처 일반화는 추가 검증이 필요합니다.

ByteDance Seed 팀이 다중 상태 선형 어텐션의 고정 병합 정책 한계를 동적 상태 병합으로 해결한 DLA 프레임워크를 공개했습니다.

핵심 결론

벤치 — 16개 데이터셋(언어 모델링, 장문 QA, 요약 등)에서 기존 multi-state linear attention 대비 일관된 성능 우위.
모델 — 두 가지 선형 어텐션 변형(Mamba-2 기반, GLA 기반)에 DLA를 적용해 사전학습 후 평가.

방법

동적 병합 — 토큰 수준 정보 변화량에 따라 상태 경계를 적응적으로 결정. 의미 전이 구간은 고해상도 유지, 안정 구간은 과감히 요약.
용량 제한 — 고정 크기의 시간 순서 상태 캐시를 유지하며, 인접 저정보 상태를 선택적으로 병합해 메모리 증가를 억제.

한계·조건

일반화 — 두 가지 선형 어텐션 모델에서만 검증되어 다른 변형(예: RWKV, RetNet)에서도 유효할지는 미지수.
코드 — 논문 내 코드 공개 언급 없음 — 재현성은 아직 불확실.

편집자 한 줄

동적 병합이 단순히 고정 임계값보다 나은 건 직관적이지만, 정보 변화량 측정 자체의 계산 비용이 추가로 든다는 점은 염두에 둘 만합니다.

#linear-attention
#long-context
#memory
#bytedance

ByteDance Seed

원문 보기 →

ByteDance Seed, 동적 상태 병합으로 장문 성능 개선한 DLA 공개 — 16개 데이터셋 SOTA

핵심 결론

방법

한계·조건

Comments