Papers·1개월 전

DyCo-RL: 동적 교차모달 조정으로 MLLM 시각 추론 강화 — 7개 벤치마크 평균 3.2% 향상

중국 연구진(Hangui Lin 등)이 MLLM의 시각 추론에서 Chain-of-Thought 과정 중 교차모달 조정 실패를 분석하고, 이를 RLVR 최적화에 통합한 DyCo-RL을 제안했습니다. Fisher-Rao 지오데식 거리로 토큰의 기능 역할(시각/텍스트)을 할당하고, 주의 분포와 역할 간 정렬도를 보상 가중치로 사용합니다. Qwen2.5-VL-3B/7B에서 네 가지 RLVR 알고리즘에 적용해 시각·수학 추론 7개 벤치마크에서 일관된 개선을 보였습니다. 단, 추가 계산 비용이 들며, 매우 긴 시퀀스에서의 효율성은 아직 검증되지 않았습니다.

MLLM이 Chain-of-Thought 추론 중 시각 증거와 텍스트 맥락을 동적으로 전환하지 못하는 조정 실패를 해결하는 RLVR 방법입니다.

핵심 결론

태스크 — MLLM 시각 추론 — RLVR 최적화에 교차모달 조정을 통합.
개선폭 — Qwen2.5-VL-3B/7B에서 네 가지 RLVR 알고리즘에 적용, 7개 벤치마크 평균 3.2% 향상 (예: MathVista +4.1%, ChartQA +2.8%).

방법

동기 — 토큰 수준 분석과 통제 실험으로 CoT 중 시각-텍스트 주의 전환 실패가 추론 오류의 원인임을 확인.
DyCo-RL — Fisher-Rao 지오데식 거리로 각 토큰의 주의 패턴을 측정해 시각/텍스트 역할 할당.
할당된 역할과 실제 주의 분포 간 정렬도를 점수화해, 정책 최적화 시 advantage를 재가중치 부여.
알고리즘 무관 — PPO, GRPO, RLOO, Reinforce++ 등 다양한 RLVR 알고리즘에 플러그인 형태로 적용 가능.

한계·조건

계산 비용 — Fisher-Rao 거리 계산이 추가 오버헤드를 발생시킴 (추론 시 약 15% 지연 증가).
벤치 범위 — 7개 벤치마크 모두 시각 중심 또는 수학 추론 — 일반 도메인(예: VQA, captioning)은 미검증.
코드 — GitHub 공개 예정 — 현재 논문 내 ablation만 확인 가능.

편집자 한 줄

RLVR에서 '과정'을 최적화하려는 시도는 드문데, Fisher-Rao 거리라는 정보기하학 도구를 가져온 점이 신선합니다. 다만 추가 지연이 실용성을 제한할 수 있어, 효율화 버전이 나오면 더 흥미로울 듯.

#rlvr
#visual-reasoning
#mllm
#cross-modal
#qwen

Hangui Lin

원문 보기 →

DyCo-RL: 동적 교차모달 조정으로 MLLM 시각 추론 강화 — 7개 벤치마크 평균 3.2% 향상

핵심 결론

방법

한계·조건

Comments