Papers·1개월 전

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

Hong Kong University 팀이 제안한 CaRE는 Bi-Level Routing Mixture-of-Experts (BR-MoE)를 통해 매우 긴 태스크 시퀀스에서도 discriminative하고 comprehensive한 feature 표현을 유지합니다. 100~300개 이상의 non-overlapping 태스크를 처리하는 최초의 continual learner로, 기존 baseline 대비 큰 폭의 성능 향상을 보였습니다. 단, OmniBenchmark-1K와 같은 매우 긴 시퀀스에서의 평가가 주를 이루며, 코드와 데이터셋은 공개되었습니다.

#continual-learning
#mixture-of-experts
#class-incremental
#hong-kong-university

Hong Kong University

원문 보기 →

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

Comments