Papers·2일 전
ROMA: 강화학습 기반 MLLM 추론 강건성 향상 — 시각적 열화에도 정확도 유지

Tencent Hunyuan 팀이 시각적 열화(블러, 압축, 저해상도)에 강건한 MLLM 추론을 위한 RL 미세조정 프레임워크 ROMA를 제안했습니다. 기존 방법은 열화된 입력을 rollout에 직접 사용하면 보상 중독을 일으키지만, ROMA는 이중 순전파 전략으로 깨끗한 이미지의 궤적을 기준으로 열화된 뷰를 평가하고, 토큰 수준의 surrogate KL 패널티와 정답 조건부 정규화를 통해 정책 붕괴 없이 강건성을 학습합니다. Qwen3-VL 4B/8B 모델에서 GRPO 대비 기존 열화 +2.4%, 미지의 열화 +2.3% 향상되었으며, 깨끗한 입력 정확도는 유지했습니다. 다만 8B 모델 기준 8×A100 환경에서 학습되었다는 점은 참고할 만합니다.
- #reinforcement-learning
- #multimodal
- #robustness
- #tencent
- #mllm
Tencent Hunyuan