← Back to feed
Papers·1개월 전

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

Hong Kong University 팀이 제안한 CaRE는 Bi-Level Routing Mixture-of-Experts (BR-MoE)를 통해 매우 긴 태스크 시퀀스에서도 discriminative하고 comprehensive한 feature 표현을 유지합니다. 100~300개 이상의 non-overlapping 태스크를 처리하는 최초의 continual learner로, 기존 baseline 대비 큰 폭의 성능 향상을 보였습니다. 단, OmniBenchmark-1K와 같은 매우 긴 시퀀스에서의 평가가 주를 이루며, 코드와 데이터셋은 공개되었습니다.

  • #continual-learning
  • #mixture-of-experts
  • #class-incremental
  • #hong-kong-university
Hong Kong University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —