Papers·1개월 전

Sleep-like consolidation mechanism — Transformer가 긴 문맥에서 attention 부담을 줄이는 방법

Transformer의 attention은 문맥이 길어질수록 확장성이 떨어집니다. 연구진은 주기적으로 KV cache를 비우고 최근 문맥을 state-space model(SSM) 블록의 fast weight에 학습 규칙을 통해 저장하는 '수면' 메커니즘을 제안했습니다. 수면 중 N회의 offline recurrent pass로 추가 연산을 몰아넣고, 추론 시에는 wake-time latency를 유지합니다. 세포 자동자, 다중 홉 그래프 검색, 수학 추론 태스크에서 기존 Transformer 및 SSM-attention 하이브리드 모델이 실패하는 문제를 해결했으며, 수면 시간 N이 길수록 성능이 향상됩니다.

Transformer의 attention은 문맥이 길어질수록 확장성이 떨어집니다. 연구진은 주기적으로 KV cache를 비우고 최근 문맥을 SSM 블록의 fast weight에 저장하는 '수면' 메커니즘을 제안했습니다.

핵심 결론

태스크 — 세포 자동자, 다중 홉 그래프 검색, 수학 추론 태스크에서 기존 Transformer 및 SSM-attention 하이브리드 모델이 실패하는 문제를 해결.
성능 — 수면 시간 N이 길수록 성능이 향상되며, 특히 깊은 추론이 필요한 예제에서 큰 개선을 보입니다.

방법

수면 메커니즘 — 모델이 주기적으로 최근 문맥을 offline recurrent pass로 처리하여 SSM 블록의 fast weight에 저장한 후 KV cache를 비웁니다.
학습 규칙 — Fast weight 업데이트는 learned local rule을 통해 이루어지며, 이는 추가 학습 없이 추론 중에 적용됩니다.
추론 시에는 wake-time latency를 유지하면서 수면 중에 추가 연산을 몰아넣는 구조입니다.

한계·조건

환경 — 수면 단계가 추가 연산을 필요로 하므로, 실시간 응용에서는 trade-off가 발생할 수 있습니다.
재현성 — 논문은 제어된 합성 태스크와 하나의 수학 추론 태스크에서만 검증되었으며, 더 큰 규모의 언어 모델에서의 효과는 추가 연구가 필요합니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

수면 메커니즘은 생물학적 영감을 받은 점이 흥미롭지만, 실제 LLM에 적용하려면 수면 주기와 N의 설정이 까다로울 수 있습니다.

#transformer
#long-context
#attention
#state-space-model
#consolidation

Sangyun Lee

원문 보기 →

Sleep-like consolidation mechanism — Transformer가 긴 문맥에서 attention 부담을 줄이는 방법

핵심 결론

방법

한계·조건

Comments