Papers·1개월 전

ETCHR: 추론 과정에서 이미지 편집으로 MLLM 성능 향상 — Qwen3-VL-8B 기준 Pass@1 +4.82

Intern 팀이 다중모달 LLM의 시각적 추론을 개선하기 위해, 추론 중 이미지를 편집해주는 전용 모델 ETCHR을 제안했습니다. 기존 방식은 고정된 도구 세트나 잡음이 섞인 중간 이미지 생성에 의존했지만, ETCHR은 언어-편집 간극과 생성-편집 간극을 해결하기 위해 추론 궤적 SFT와 VLM 보상 기반 강화 학습을 도입했습니다. 편집 모델과 이해 모델이 분리되어 있어 추가 학습 없이 다양한 MLLM에 적용 가능하며, 5개 태스크 패밀리에서 Qwen3-VL-8B는 55.95→60.77, Gemini-3.1-Flash-Lite는 65.08→70.55, Kimi K2.5는 76.55→81.16으로 Pass@1이 향상되었습니다. 다만 편집 모델의 추론 깊이에 따른 정확도 저하 가능성은 여전히 남아 있습니다.

#multimodal
#visual-reasoning
#image-editing
#intern

Intern Large Models

원문 보기 →

ETCHR: 추론 과정에서 이미지 편집으로 MLLM 성능 향상 — Qwen3-VL-8B 기준 Pass@1 +4.82

Comments