Papers·2일 전
ViGOS: 시각 기반 자기 증류로 MLLM 이미지 의존성 강화 — OPSD의 shortcut 문제 해결

Sihan Wang 팀이 제안한 ViGOS는 MLLM 후학습에서 OPSD의 shortcut(텍스트 참조에만 의존)을 방지하기 위해 이미지 기반 지각 교사와 추론 교사를 분리합니다. 학생 모델이 먼저 시각적 설명을 생성한 후 추론하도록 하여, 일반 VL, 전문 추론, 시각 수학, 공간 이해 등 다양한 벤치마크에서 OPSD의 이점을 유지하면서 이미지 기반 행동을 개선했습니다. 단, 유효하지 않은 rollout에 대해서는 참조 교사가 출력 형식을 복구하는 조건이 붙습니다.
ViGOS는 MLLM 후학습에서 OPSD의 shortcut 문제를 해결하기 위해 이미지 기반 지각 교사를 도입한 프레임워크입니다.
핵심 결론
- 태스크 — MLLM 후학습에서 OPSD의 shortcut(텍스트 참조에만 의존) 문제 해결.
- 개선 — 일반 VL, 전문 추론, 시각 수학, 공간 이해, VL-prior 벤치마크에서 이미지 기반 행동 개선.
방법
- 구조 — 학생이 먼저 시각적 설명을 생성하고, 이미지 전용 지각 교사가 이를 감독. 이후 추론 교사가 동일한 prefix로 추론과 최종 답을 감독.
- 참조 교사 — 유효하지 않은 rollout에만 사용되어 출력 형식을 복구.
한계·조건
- 조건 — 유효하지 않은 rollout에 대해 참조 교사가 필요하므로, rollout 품질에 따라 성능이 달라질 수 있습니다.
- 재현성 — 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
OPSD의 shortcut 문제를 구체적으로 짚고 이미지 의존성을 강화한 점이 실용적이네요. 다만 rollout 품질에 민감할 수 있어 추가 분석이 필요해 보입니다.
- #multimodal
- #self-distillation
- #mllm
- #reasoning
- #shortcut
Sihan Wang