Papers·1개월 전

RoPE 위치 인코딩의 근본적 한계 — 긴 문맥에서 주의력이 무작위 수준으로 붕괴

UIUC 연구진이 Transformer 장문맥 모델에서 RoPE(Rotary Positional Embeddings)의 내재적 한계를 이론적으로 증명했습니다. 문맥 길이가 길어질수록 RoPE 기반 어텐션은 위치 편향(locality bias)을 잃고 토큰 간 일관된 중요도 평가도 불가능해져, 실패 확률이 0.5에 수렴합니다. base 하이퍼파라미터를 키우면 토큰 구분력은 높아지지만 위치 구분력이 희생되는 트레이드오프가 있으며, multi-head·multi-layer 구조로도 극복되지 않습니다. 향후 Transformer 장문맥 모델에는 근본적으로 다른 위치 인코딩 메커니즘이 필요함을 시사합니다.

#rope
#positional-encoding
#long-context
#transformer
#uiuc

University of Illinois at Urbana-Champaign

원문 보기 →

RoPE 위치 인코딩의 근본적 한계 — 긴 문맥에서 주의력이 무작위 수준으로 붕괴

Comments