Papers·5일 전

Taylor-Calibrate: Transformer를 하이브리드 선형 주의 모델로 변환하는 초기화 방법 — 88x 성능 개선

Taylor-Calibrate는 사전 학습된 Transformer를 Gated DeltaNet(GDN) 하이브리드 선형 주의 모델로 변환할 때 발생하는 초기화 불안정 문제를 해결합니다. Taylor 전개를 이용해 교사 모델의 주의 통계로부터 값 투영, 메모리 시간 척도, 쓰기 게이트, 출력 게이트를 설정한 후, 짧은 층별 정렬 단계를 거쳐 변환된 각 층을 교사 출력에 맞춥니다. 네 가지 교사 설정과 세 가지 유지 층 정책에서 제로샷 성능이 최대 88배 향상되었으며, 목표 회복에 필요한 학습 토큰 수를 4.9~9.2배 줄였습니다.

Together 연구진이 Transformer를 Gated DeltaNet 하이브리드 모델로 변환할 때 초기화를 최적화하는 Taylor-Calibrate 방법을 제안했습니다.

핵심 결론

성능 — 제로샷 평가에서 최대 88x 개선, 목표 회복에 필요한 학습 토큰 4.9x~9.2x 절감.
범위 — 네 가지 교사 모델과 세 가지 층 유지 정책에서 일관된 효과를 확인했습니다.

방법

Taylor 유도 — 교사 attention 통계의 Taylor 전개를 이용해 GDN의 value projection, decay, write gate, output gate를 초기화합니다.
층별 정렬 — 초기화 후 각 층의 출력을 교사 출력에 맞추는 짧은 per-layer alignment 단계를 추가합니다.
이 방식은 변환 초기의 불안정한 동역학 문제를 해결해, 많은 증류 토큰을 초기화에 낭비하지 않도록 합니다.

한계·조건

구조 — Gated DeltaNet 아키텍처에 특화된 방법이며, 다른 선형 주의 구조로의 일반화는 검증되지 않았습니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

변환 기반 하이브리드 모델의 실용성을 높이는 실용적인 기법으로, 학습 비용 절감 효과가 눈에 띕니다.

#hybrid-linear-attention
#transformer-conversion
#initialization
#gated-deltanet
#together

Together

원문 보기 →

Taylor-Calibrate: Transformer를 하이브리드 선형 주의 모델로 변환하는 초기화 방법 — 88x 성능 개선

핵심 결론

방법

한계·조건

Comments