Papers·2일 전
TUM, 루프 언어모델의 반복 효율 측정 — φ=0.46, 4회 반복 시 580M 파라미터와 동등 성능

TUM 연구팀이 루프(깊이-재귀) 언어모델에서 추가 반복이 유효 파라미터 몇 개에 해당하는지 정량화하는 스케일링 법칙을 제시했습니다. 116회 사전학습 실험을 통해 반복-등가 지수 φ=0.46을 추정했는데, 이는 반복 횟수 r=4일 때 410M 루프 모델이 580M 비루프 모델과 성능이 같지만 학습 비용은 1B 모델 수준임을 의미합니다. 잘린 역전파(truncated BPTT)는 φ를 0.38로 낮추는 반면, hyperconnections는 φ를 0.65로 높여 루프 메커니즘의 진정한 용량 향상을 보여줍니다. 이 방법은 모든 루프 언어모델에 적용 가능하며, 단순 토큰 예산 증가와 실제 루프 개선을 분리합니다.
- #language-models
- #scaling-laws
- #recurrence
- #tum
Technical University of Munich