Papers·1개월 전

PRISM: SFT와 RLVR 사이 분포 정렬 단계로 멀티모달 추론 성능 개선 — Qwen3-VL 기준 평균 +4.4~6.0점

HKUSTGZ 팀이 대형 멀티모달 모델(LMM)의 post-training 파이프라인에서 SFT가 유발하는 분포 이동(distributional drift)을 완화하는 3단계 프레임워크 PRISM을 제안했습니다. SFT와 RLVR 사이에 on-policy distillation 기반의 정렬 단계를 삽입하고, perception/reasoning 전용 MoE 판별기로 정책을 교정합니다. Qwen3-VL 4B/8B 모델에서 GRPO, DAPO, GSPO 등 다양한 RL 알고리즘에 대해 평균 정확도가 +4.4~+6.0점 향상되었으며, 코드와 데이터, 체크포인트가 공개되었습니다. 다만 정렬 단계에 Gemini 3 Flash로 생성한 113K 고품질 데이터가 추가로 필요하다는 점은 한계입니다.

#multimodal
#rlvr
#sft
#prism
#hkustgz

HKUSTGZ

원문 보기 →

PRISM: SFT와 RLVR 사이 분포 정렬 단계로 멀티모달 추론 성능 개선 — Qwen3-VL 기준 평균 +4.4~6.0점

Comments