Papers·5일 전

Princeton: Option-Critic MoE cuts expert switch rate from 50% to <5% with 90% accuracy retention

Princeton 연구진이 MoE 모델의 전문가 스위칭 비율을 50% 이상에서 5% 미만으로 줄이는 옵션-비평 기반 프레임워크를 제안했다. 각 레이어에 컨트롤러를 추가해 언제 전문가 세트를 전환할지 학습하고, 저순위 어댑터와 자기 증류 보상을 활용해 gpt-oss-20b에서 MATH, MMLU, MMMLU 기준 정확도의 90%를 유지했다. 이 방법은 기존 사전학습 모델을 경량 학습만으로 시간적 확장 MoE로 변환 가능하며, 전환 비용을 통해 스위칭 속도와 성능 간 트레이드오프를 조절할 수 있다.

#mixture-of-experts
#options-framework
#princeton
#memory-efficiency

Princeton University

원문 보기 →

Princeton: Option-Critic MoE cuts expert switch rate from 50% to <5% with 90% accuracy retention

Comments