← Back to feed
Papers·6일 전

UCSD, 멀티모달 모델 지식 편집의 modality 격차 발견 — 텍스트 92% 성공에도 이미지 생성 18.5%

UCSD, 멀티모달 모델 지식 편집의 modality 격차 발견 — 텍스트 92% 성공에도 이미지 생성 18.5%

UCSD 팀이 멀티모달 모델에서 텍스트 지식 편집이 이미지 생성으로 전이되지 않는 modality 격차를 밝혔습니다. 2,971개 편집 대상으로 실험한 결과, 텍스트 측 성공률은 약 92%지만 직접 이미지 생성 시 VQA 정확도는 최대 18.5%에 그쳤습니다. 추론 증강 파라미터 편집(RPE)을 제안해 최대 18.6%p 개선했지만, 근본적으로 텍스트 편집만으로는 시각 생성 조건화 경로를 충분히 제어하지 못한다는 한계를 확인했습니다.

UCSD 연구진이 멀티모달 모델의 지식 편집이 텍스트와 이미지 생성 간에 큰 성능 차이를 보인다는 사실을 체계적으로 분석했습니다.

핵심 결론

  • 태스크멀티모달 모델(UMM)의 지식 편집이 텍스트 출력과 이미지 생성 간에 얼마나 전이되는지 평가.
  • 수치텍스트 측 편집 성공률은 약 92%인 반면, 직접 이미지 생성 시 VQA 정확도는 최대 18.5%에 불과.
  • 개선제안한 RPE(Reasoning-augmented Parameter Editing)로 최대 18.6%p 향상.

방법

  • UniKE 벤치마크2,971개 편집 대상(속성·관계)을 포함한 최초의 교차 모달리티 지식 편집 벤치마크.
  • VQA 검증이미지 생성 후 VQA로 정확도를 측정, 텍스트 편집만으로는 이미지 생성 조건화 경로를 충분히 제어하지 못함을 발견.
  • RPE편집된 지식을 생성 전에 명시적으로 활성화하는 추론 증강 파라미터 편집 기법.

한계·조건

  • 모델실험은 특정 UMM 아키텍처에 국한될 수 있으며, 다른 구조에서의 일반화는 추가 검증 필요.
  • 코드·데이터GitHub에 공개되어 재현 가능.

편집자 한 줄

텍스트 편집이 이미지 생성에 거의 영향을 못 미친다는 점은 멀티모달 모델의 내부 표현 정렬 문제를 잘 드러내네요.

  • #multimodal
  • #knowledge-editing
  • #ucsd
  • #vlm
University of California at San Diego
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —