← Back to feed
Papers·3일 전

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

CaRE: 이중 라우팅 MoE로 300개 이상 태스크를 학습하는 continual learner

Hong Kong University 팀이 제안한 CaRE는 Bi-Level Routing Mixture-of-Experts (BR-MoE)를 통해 매우 긴 태스크 시퀀스에서도 discriminative하고 comprehensive한 feature 표현을 유지합니다. 100~300개 이상의 non-overlapping 태스크를 처리하는 최초의 continual learner로, 기존 baseline 대비 큰 폭의 성능 향상을 보였습니다. 단, OmniBenchmark-1K와 같은 매우 긴 시퀀스에서의 평가가 주를 이루며, 코드와 데이터셋은 공개되었습니다.

Hong Kong University

Comments

— 첫 댓글을 남겨보세요 —