Papers·1개월 전

Robust-U1: MLLM 스스로 시각적 손상 복구 — SSIM+CLIP 이중 보상 RL

Jiaqi Tang 팀이 MLLM이 손상된 시각 입력을 스스로 복구(self-recovery)하는 Robust-U1 프레임워크를 제안했습니다. 세 단계로 구성됩니다: supervised fine-tuning 으로 초기 복원, SSIM(픽셀)과 CLIP(의미) 이중 보상 강화학습으로 복원 품질 정렬, 복구된 이미지와 원본 손상 이미지를 함께 추론에 활용. 실제 손상 벤치마크에서 SOTA, 적대적 손상 VQA에서도 우수한 성능을 보였지만, 복구 모듈의 추가 연산 비용이 듭니다. 코드는 공개되었습니다.

MLLM이 깨진 이미지를 스스로 고쳐서 추론 성능을 높이는 프레임워크, Robust-U1이 공개되었습니다.

핵심 결론

벤치마크 — 실제 손상(corruption) 벤치마크에서 SOTA, 기존 대비 최대 12% 정확도 향상.
VQA — 적대적 손상이 포함된 일반 VQA 벤치마크에서도 강건성 유지.

방법

3단계 파이프라인 — SFT로 초기 복원 → SSIM+CLIP 이중 보상 RL → 복구 이미지와 원본 손상 이미지를 함께 multimodal reasoning에 입력.
핵심 직관 — 픽셀 수준(SSIM)과 의미 수준(CLIP) 보상을 동시에 최적화해야 복구 품질이 추론 성능으로 이어집니다.

한계·조건

연산 비용 — 복구 모듈이 추가로 들어가므로 inference latency가 증가합니다.
코드 — GitHub에 공개 완료 (https://github.com/jqtangust/Robust-U1).

편집자 한 줄

복구 품질과 추론 성능 간 상관관계를 RL 보상 설계로 연결한 점이 깔끔합니다. 다만 실시간 응용에는 추가 최적화가 필요해 보이네요.

#multimodal
#robustness
#self-recovery
#reinforcement-learning
#mllm

Jiaqi Tang

원문 보기 →

Robust-U1: MLLM 스스로 시각적 손상 복구 — SSIM+CLIP 이중 보상 RL

핵심 결론

방법

한계·조건

Comments