Papers·2주 전
Fudan, VLM의 modality 치환 취약성 해결 — LoMo로 13개 벤치마크 평균 2.7점 향상

Fudan 대학 연구팀이 VLM이 텍스트 질문을 이미지로 바꾸면 성능이 급락하는 'carrier sensitivity' 문제를 분석하고, 경량 데이터 큐레이션 기법 LoMo를 제안했습니다. LoMo는 텍스트 일부를 렌더링된 이미지로 대체한 interleaved 시퀀스를 학습 데이터에 추가해, 의미적으로 동등한 내용이 modality에 관계없이 같은 표현을 갖도록 정렬합니다. LLaVA-OneVision-1.5-8B에서 2.67점, Qwen3.5-9B에서 2.82점 향상이 관찰되었으며, 13개 벤치마크 전반에서 일관된 개선을 보였습니다.
Fudan 대학 연구팀이 VLM이 텍스트와 이미지 간 modality 치환에 취약한 원인을 데이터 편향에서 찾고, 간단한 데이터 큐레이션으로 해결한 LoMo를 공개했습니다.
핵심 결론
- 문제 — 텍스트 질문을 이미지로 바꾸면 VLM 성능이 급락 — 연구팀은 이를 'carrier sensitivity'라 명명.
- 해결 — LoMo는 텍스트 일부를 렌더링 이미지로 대체한 interleaved 시퀀스를 학습 데이터에 추가해 cross-modal 표현을 정렬.
- 성능 — 13개 벤치마크 평균, LLaVA-OneVision-1.5-8B에서 2.67점, Qwen3.5-9B에서 2.82점 향상.
방법
- 핵심 아이디어 — 기존 데이터에서 텍스트 일부를 동적으로 선택해 렌더링 이미지로 대체, 'text → image → text' 형태의 interleaved 시퀀스 생성.
- 경량성 — LoMo는 architecture-agnostic이며, 추가 학습 없이 데이터 전처리만으로 적용 가능.
- 직관 — 동일 의미가 다른 modality에서도 같은 표현을 갖도록 강제해, 모델이 modality에 무관한 추론을 하게 함.
한계·조건
- 데이터 의존 — LoMo의 효과는 원본 데이터의 텍스트-이미지 역할 비대칭성에 기반하므로, 이미 균형 잡힌 데이터셋에서는 이득이 제한적일 수 있습니다.
- 렌더링 품질 — 텍스트를 이미지로 렌더링할 때 폰트, 크기, 배경 등의 변인이 결과에 영향을 줄 가능성이 있습니다.
- 코드 공개 — 현재 코드는 공개되지 않았으며, Hugging Face 논문 페이지에서 abstract와 figure만 확인 가능합니다.
편집자 한 줄
데이터 레벨에서 modality 간 표현 정렬을 시도한 점이 깔끔하고, 추가 학습 없이 SFT에 얹을 수 있어 실용성이 높아 보입니다.
- #vlm
- #modality-gap
- #data-curation
- #fudan
Fudan University