← Back to feed
Papers·1주 전

Lighthouse Attention: 학습 전용 계층형 선택 기법으로 시퀀스 길이 제약 완화

Lighthouse Attention: 학습 전용 계층형 선택 기법으로 시퀀스 길이 제약 완화

NousResearch 팀이 제안한 Lighthouse Attention은 학습 시에만 적용되는 대칭적 계층형 선택 기법으로, 기존 SDPA의 이차 시간/메모리 병목을 완화합니다. 쿼리, 키, 값을 동시에 압축/복원하며 인과성을 유지, 훈련 속도를 높이고 최종 단계에서 짧은 미세 조정으로 전체 attention을 복구합니다. 소규모 실험에서 동일 조건 대비 더 빠른 훈련 시간과 낮은 최종 loss를 달성했으며, 코드는 공개되었습니다.

  • #attention
  • #long-context
  • #efficient-training
  • #nousresearch
NousResearch

Comments

— 첫 댓글을 남겨보세요 —