← Back to feed
Papers·6일 전

TIDE: 모든 레이어에 토큰 임베딩을 재주입하는 트랜스포머 — 희소 토큰 문제와 문맥 붕괴 완화

TIDE: 모든 레이어에 토큰 임베딩을 재주입하는 트랜스포머 — 희소 토큰 문제와 문맥 붕괴 완화

Apple 연구진이 기존 LLM이 입력 임베딩에서 토큰 임베딩을 한 번만 조회한 후 폐기하는 설계가 희소 토큰의 학습 부족과 유사 토큰의 표현 붕괴를 유발한다고 지적하며, TIDE를 제안했습니다. EmbeddingMemory라는 K개의 독립 메모리 블록을 통해 토큰 인덱스를 모든 레이어에 깊이 조건부 소프트맥스 라우터로 재주입하는 방식입니다. 언어 모델링 및 다운스트림 태스크에서 성능 향상을 보였으나, 추가 메모리와 계산 비용이 발생하는 점은 한계입니다.

  • #llm
  • #embedding
  • #apple
  • #transformer
  • #token-representation
Apple

Comments

— 첫 댓글을 남겨보세요 —