Papers·3개월 전

CoPD: 여러 전문가 능력을 하나의 모델로 통합하는 공진화 정책 증류

RLVR과 OPD를 통합 분석한 결과, 혼합 RLVR은 능력 간 발산 비용이 발생하고 순차적 OPD는 교사-학생 행동 패턴 차이로 지식 흡수가 불완전함을 밝혔습니다. 제안된 CoPD는 전문가들을 병렬로 훈련하면서 각 전문가의 RLVR 도중 양방향 OPD를 적용해 행동 패턴 일관성과 상호 보완적 지식을 동시에 확보합니다. 텍스트·이미지·비디오 추론 능력을 통합한 실험에서 혼합 RLVR 및 MOPD를 크게 능가했으며, 도메인별 전문가보다도 높은 성능을 보였습니다. 단, 이 방식은 대규모 병렬 컴퓨팅 자원을 필요로 하며, 실험 설정이 공개되지 않아 재현성은 미지수입니다.

#rlvr
#opd
#distillation
#multimodal
#co-evolution

Naibin Gu

원문 보기 →

CoPD: 여러 전문가 능력을 하나의 모델로 통합하는 공진화 정책 증류

Comments