Papers·어제

TLM: 층 깊이에 따라 MLP 폭을 테이퍼링 — 고정 파라미터로 perplexity 개선

기존 언어 모델은 모든 층에 동일한 파라미터를 할당하지만, Reza Bayat 연구는 고정 예산 하에서 앞쪽 층에 더 많은 MLP 폭을, 뒤쪽 층에 더 적게 할당하는 Tapered Language Model(TLM)을 제안합니다. Transformer, Gated Attention, Hope-attention, Titans 등 4개 아키텍처에서 cosine 스케줄로 MLP 폭을 테이퍼링했을 때 perplexity와 다운스트림 벤치마크가 일관되게 개선되었습니다. 추가 파라미터나 연산 비용 없이 얻을 수 있는 설계 원리라는 점이 흥미롭습니다. 단, 실험은 3개 스케일(최대 1.3B 파라미터)에서만 검증되어 더 큰 모델에서의 효과는 추가 확인이 필요합니다.

모든 층을 동일한 폭으로 쌓는 건 비효율적일 수 있습니다. 앞쪽 층에 더 많은 파라미터를 주는 TLM이 perplexity를 개선합니다.

핵심 결론

태스크 — 언어 모델 perplexity 및 다운스트림 벤치마크 개선.
수치 — 고정 파라미터 예산 하에서 uniform-width 대비 perplexity가 일관되게 감소.
아키텍처 — Transformer, Gated Attention, Hope-attention, Titans — 4개 모두에서 효과 확인.

방법

아이디어 — MLP 폭을 층 깊이에 따라 cosine 스케줄로 테이퍼링: 앞쪽 층은 넓게, 뒤쪽 층은 좁게.
자연스러운 대상 — MLP가 파라미터의 대부분을 차지하며 폭 조정이 단순하기 때문에 MLP에 적용.
비용 — 추가 파라미터나 FLOPs 없이 uniform-width와 동일한 예산.

한계·조건

스케일 — 실험은 최대 1.3B 파라미터 모델까지. 더 큰 모델에서의 일반화는 추가 검증 필요.
테이퍼링 함수 — cosine 스케줄 외에 다른 함수(linear, exponential)는 실험되지 않음.
재현성 — 코드 공개 여부는 명시되지 않았으나 실험 설정은 상세히 기술됨.

편집자 한 줄

간단한 설계 변경만으로도 성능 향상을 얻을 수 있다는 점에서, 실제 모델 개발에 바로 적용해볼 만한 아이디어입니다.

#tapered-lm
#mlp
#architecture
#language-model
#depth-wise-allocation

Reza Bayat

원문 보기 →

TLM: 층 깊이에 따라 MLP 폭을 테이퍼링 — 고정 파라미터로 perplexity 개선

핵심 결론

방법

한계·조건

Comments