Papers·1개월 전

MARS: 다중 소스 시각 추론에서 RLVR 로 정보 이득을 동적 측정 — GRPO 3.2% 향상

Tsinghua 대학 팀이 다중 소스 시각 추론에서 RLVR(강화 학습 + 검증 가능한 보상)의 한계를 지적하며 MARS 프레임워크를 제안했습니다. 기존 방식은 여러 모달리티(예: 적외선, 깊이)를 단순 누적해, 특정 소스가 우세할 때 단일 소스보다 성능이 떨어지는 문제가 있었습니다. MARS는 단일 소스 보상을 동적 앵커로 삼아 다중 소스 융합의 정보 이득을 어드밴티지 정규화에 반영하고, 상호 촉진을 강조하면서 노이즈를 억제합니다. GRPO와 DAPO에서 각각 3.2%, 4.9% 성능 향상을 보였습니다.

Tsinghua 대학이 다중 소스 시각 추론에서 RLVR의 한계를 해결하는 MARS 프레임워크를 제안했습니다.

핵심 결론

벤치 — GRPO 기준 3.2%, DAPO 기준 4.9% 성능 향상을 다양한 데이터셋에서 확인.
문제 — 기존 RLVR는 다중 소스를 단순 누적해, 특정 소스가 우세할 때 단일 소스보다 성능이 낮아지는 현상 발생.

방법

핵심 아이디어 — 단일 소스 보상을 동적 앵커(mono-anchored)로 삼아, 다중 소스 융합 시 정보 이득을 어드밴티지 정규화에 명시적으로 반영.
이를 통해 상호 촉진을 강조하고, 잡음이나 충돌을 억제하는 방식으로 모달리티 간 동적 상호작용을 모델링합니다.

한계·조건

이론 — 정보 이득을 gradient 추정에 정량화하는 이론적 분석은 제공되나, 실제 학습 안정성이나 하이퍼파라미터 민감도에 대한 논의는 부족.
재현성 — 코드 공개 여부는 불명확하며, 실험은 특정 데이터셋에 국한되어 일반화 가능성은 추가 검증 필요.

편집자 한 줄

다중 소스 융합에서 '정보 이득 vs 간섭'을 동적으로 측정하려는 접근은 직관적이면서도 실용적입니다. 다만, 이론과 실험 간 갭이 좀 더 좁혀지면 좋겠네요.

#rlvr
#multi-modal
#visual-reasoning
#tsinghua

Tsinghua University

원문 보기 →

MARS: 다중 소스 시각 추론에서 RLVR 로 정보 이득을 동적 측정 — GRPO 3.2% 향상

핵심 결론

방법

한계·조건

Comments