← Back to feed
Papers·1주 전

SAGA: MLLM 피드백으로 비전 인코더 세밀한 속성 학습 — zero-shot retrieval Recall@1 3~6p 향상

SAGA: MLLM 피드백으로 비전 인코더 세밀한 속성 학습 — zero-shot retrieval Recall@1 3~6p 향상

UIUC 팀이 MLLM의 언어 기반 속성 인식을 활용해 비전 인코더를 학습하는 SAGA 프레임워크를 제안했습니다. GRPO로 MLLM이 인코더 토큰을 보고 속성 수준의 예측을 하도록 유도, 기존 class-label 기반의 균일한 임베딩 학습을 대체합니다. CUB-200, Cars-196, FGVC-Aircraft, iNaturalist Aves에서 zero-shot retrieval Recall@1이 기존 SOTA 대비 3~6p 개선되었으며, 추론 시 MLLM은 제거되어 추가 비용이 없습니다.

UIUC 팀이 MLLM의 언어적 속성 인식을 비전 인코더 학습 신호로 활용하는 SAGA를 공개했습니다.

핵심 결론

  • 태스크zero-shot image retrieval — CUB-200, Cars-196, FGVC-Aircraft, iNaturalist Aves.
  • 성능Recall@1 기준 기존 SOTA 대비 3~6p 향상.
  • 비용추론 시 MLLM 제거, metric-learning baseline과 동일한 연산량.

방법

  • 핵심 아이디어MLLM이 이미지 쌍의 속성 차이를 언어로 설명하도록 GRPO로 보상, 인코더가 속성 수준의 표현을 학습하게 유도.
  • 손실 구성GRPO 보상 + attention distillation loss (MLLM의 attention weight로 인코더 정규화) + standard metric learning loss.
  • MLLM학습 중 frozen, 추론 시 제거 — 추가 파라미터나 지연 없음.

한계·조건

  • 데이터fine-grained 벤치마크 위주로 평가됨 — 일반 객체 retrieval에서의 효과는 추가 검증 필요.
  • MLLM 의존MLLM의 속성 인식 능력이 성능 상한을 결정 — 약한 MLLM에서는 이득이 줄어들 가능성.
  • 코드논문 내 코드 공개 여부 불명 — 재현성 확인 필요.

편집자 한 줄

MLLM을 학습이 아닌 피드백 제공자로만 쓰는 설계가 깔끔합니다. 다만 fine-grained 외 도메인에서도 통할지 궁금하네요.

  • #vision-encoder
  • #retrieval
  • #mllm
  • #grpo
  • #uiuc
University of Illinois at Urbana-Champaign
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —