Papers·어제
TLM: 층 깊이에 따라 MLP 폭을 테이퍼링 — 고정 파라미터로 perplexity 개선

기존 언어 모델은 모든 층에 동일한 파라미터를 할당하지만, Reza Bayat 연구는 고정 예산 하에서 앞쪽 층에 더 많은 MLP 폭을, 뒤쪽 층에 더 적게 할당하는 Tapered Language Model(TLM)을 제안합니다. Transformer, Gated Attention, Hope-attention, Titans 등 4개 아키텍처에서 cosine 스케줄로 MLP 폭을 테이퍼링했을 때 perplexity와 다운스트림 벤치마크가 일관되게 개선되었습니다. 추가 파라미터나 연산 비용 없이 얻을 수 있는 설계 원리라는 점이 흥미롭습니다. 단, 실험은 3개 스케일(최대 1.3B 파라미터)에서만 검증되어 더 큰 모델에서의 효과는 추가 확인이 필요합니다.
모든 층을 동일한 폭으로 쌓는 건 비효율적일 수 있습니다. 앞쪽 층에 더 많은 파라미터를 주는 TLM이 perplexity를 개선합니다.
핵심 결론
- 태스크 — 언어 모델 perplexity 및 다운스트림 벤치마크 개선.
- 수치 — 고정 파라미터 예산 하에서 uniform-width 대비 perplexity가 일관되게 감소.
- 아키텍처 — Transformer, Gated Attention, Hope-attention, Titans — 4개 모두에서 효과 확인.
방법
- 아이디어 — MLP 폭을 층 깊이에 따라 cosine 스케줄로 테이퍼링: 앞쪽 층은 넓게, 뒤쪽 층은 좁게.
- 자연스러운 대상 — MLP가 파라미터의 대부분을 차지하며 폭 조정이 단순하기 때문에 MLP에 적용.
- 비용 — 추가 파라미터나 FLOPs 없이 uniform-width와 동일한 예산.
한계·조건
- 스케일 — 실험은 최대 1.3B 파라미터 모델까지. 더 큰 모델에서의 일반화는 추가 검증 필요.
- 테이퍼링 함수 — cosine 스케줄 외에 다른 함수(linear, exponential)는 실험되지 않음.
- 재현성 — 코드 공개 여부는 명시되지 않았으나 실험 설정은 상세히 기술됨.
편집자 한 줄
간단한 설계 변경만으로도 성능 향상을 얻을 수 있다는 점에서, 실제 모델 개발에 바로 적용해볼 만한 아이디어입니다.
- #tapered-lm
- #mlp
- #architecture
- #language-model
- #depth-wise-allocation
Reza Bayat