Papers·1주 전
Lighthouse Attention: 학습 전용 계층형 선택 기법으로 시퀀스 길이 제약 완화

NousResearch 팀이 제안한 Lighthouse Attention은 학습 시에만 적용되는 대칭적 계층형 선택 기법으로, 기존 SDPA의 이차 시간/메모리 병목을 완화합니다. 쿼리, 키, 값을 동시에 압축/복원하며 인과성을 유지, 훈련 속도를 높이고 최종 단계에서 짧은 미세 조정으로 전체 attention을 복구합니다. 소규모 실험에서 동일 조건 대비 더 빠른 훈련 시간과 낮은 최종 loss를 달성했으며, 코드는 공개되었습니다.
- #attention
- #long-context
- #efficient-training
- #nousresearch
NousResearch