← Back to feed
Papers·6일 전

DyCo-RL: 동적 교차모달 조정으로 MLLM 시각 추론 강화 — 7개 벤치마크 평균 3.2% 향상

DyCo-RL: 동적 교차모달 조정으로 MLLM 시각 추론 강화 — 7개 벤치마크 평균 3.2% 향상

중국 연구진(Hangui Lin 등)이 MLLM의 시각 추론에서 Chain-of-Thought 과정 중 교차모달 조정 실패를 분석하고, 이를 RLVR 최적화에 통합한 DyCo-RL을 제안했습니다. Fisher-Rao 지오데식 거리로 토큰의 기능 역할(시각/텍스트)을 할당하고, 주의 분포와 역할 간 정렬도를 보상 가중치로 사용합니다. Qwen2.5-VL-3B/7B에서 네 가지 RLVR 알고리즘에 적용해 시각·수학 추론 7개 벤치마크에서 일관된 개선을 보였습니다. 단, 추가 계산 비용이 들며, 매우 긴 시퀀스에서의 효율성은 아직 검증되지 않았습니다.

MLLM이 Chain-of-Thought 추론 중 시각 증거와 텍스트 맥락을 동적으로 전환하지 못하는 조정 실패를 해결하는 RLVR 방법입니다.

핵심 결론

  • 태스크MLLM 시각 추론 — RLVR 최적화에 교차모달 조정을 통합.
  • 개선폭Qwen2.5-VL-3B/7B에서 네 가지 RLVR 알고리즘에 적용, 7개 벤치마크 평균 3.2% 향상 (예: MathVista +4.1%, ChartQA +2.8%).

방법

  • 동기토큰 수준 분석과 통제 실험으로 CoT 중 시각-텍스트 주의 전환 실패가 추론 오류의 원인임을 확인.
  • DyCo-RLFisher-Rao 지오데식 거리로 각 토큰의 주의 패턴을 측정해 시각/텍스트 역할 할당.
  • 할당된 역할과 실제 주의 분포 간 정렬도를 점수화해, 정책 최적화 시 advantage를 재가중치 부여.
  • 알고리즘 무관PPO, GRPO, RLOO, Reinforce++ 등 다양한 RLVR 알고리즘에 플러그인 형태로 적용 가능.

한계·조건

  • 계산 비용Fisher-Rao 거리 계산이 추가 오버헤드를 발생시킴 (추론 시 약 15% 지연 증가).
  • 벤치 범위7개 벤치마크 모두 시각 중심 또는 수학 추론 — 일반 도메인(예: VQA, captioning)은 미검증.
  • 코드GitHub 공개 예정 — 현재 논문 내 ablation만 확인 가능.

편집자 한 줄

RLVR에서 '과정'을 최적화하려는 시도는 드문데, Fisher-Rao 거리라는 정보기하학 도구를 가져온 점이 신선합니다. 다만 추가 지연이 실용성을 제한할 수 있어, 효율화 버전이 나오면 더 흥미로울 듯.

  • #rlvr
  • #visual-reasoning
  • #mllm
  • #cross-modal
  • #qwen
Hangui Lin
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —