Papers·2일 전
MARS: 다중 소스 시각 추론에서 RLVR 로 정보 이득을 동적 측정 — GRPO 3.2% 향상

Tsinghua 대학 팀이 다중 소스 시각 추론에서 RLVR(강화 학습 + 검증 가능한 보상)의 한계를 지적하며 MARS 프레임워크를 제안했습니다. 기존 방식은 여러 모달리티(예: 적외선, 깊이)를 단순 누적해, 특정 소스가 우세할 때 단일 소스보다 성능이 떨어지는 문제가 있었습니다. MARS는 단일 소스 보상을 동적 앵커로 삼아 다중 소스 융합의 정보 이득을 어드밴티지 정규화에 반영하고, 상호 촉진을 강조하면서 노이즈를 억제합니다. GRPO와 DAPO에서 각각 3.2%, 4.9% 성능 향상을 보였습니다.
Tsinghua 대학이 다중 소스 시각 추론에서 RLVR의 한계를 해결하는 MARS 프레임워크를 제안했습니다.
핵심 결론
- 벤치 — GRPO 기준 3.2%, DAPO 기준 4.9% 성능 향상을 다양한 데이터셋에서 확인.
- 문제 — 기존 RLVR는 다중 소스를 단순 누적해, 특정 소스가 우세할 때 단일 소스보다 성능이 낮아지는 현상 발생.
방법
- 핵심 아이디어 — 단일 소스 보상을 동적 앵커(mono-anchored)로 삼아, 다중 소스 융합 시 정보 이득을 어드밴티지 정규화에 명시적으로 반영.
- 이를 통해 상호 촉진을 강조하고, 잡음이나 충돌을 억제하는 방식으로 모달리티 간 동적 상호작용을 모델링합니다.
한계·조건
- 이론 — 정보 이득을 gradient 추정에 정량화하는 이론적 분석은 제공되나, 실제 학습 안정성이나 하이퍼파라미터 민감도에 대한 논의는 부족.
- 재현성 — 코드 공개 여부는 불명확하며, 실험은 특정 데이터셋에 국한되어 일반화 가능성은 추가 검증 필요.
편집자 한 줄
다중 소스 융합에서 '정보 이득 vs 간섭'을 동적으로 측정하려는 접근은 직관적이면서도 실용적입니다. 다만, 이론과 실험 간 갭이 좀 더 좁혀지면 좋겠네요.
- #rlvr
- #multi-modal
- #visual-reasoning
- #tsinghua
Tsinghua University