Papers·6일 전
UCSD, 멀티모달 모델 지식 편집의 modality 격차 발견 — 텍스트 92% 성공에도 이미지 생성 18.5%

UCSD 팀이 멀티모달 모델에서 텍스트 지식 편집이 이미지 생성으로 전이되지 않는 modality 격차를 밝혔습니다. 2,971개 편집 대상으로 실험한 결과, 텍스트 측 성공률은 약 92%지만 직접 이미지 생성 시 VQA 정확도는 최대 18.5%에 그쳤습니다. 추론 증강 파라미터 편집(RPE)을 제안해 최대 18.6%p 개선했지만, 근본적으로 텍스트 편집만으로는 시각 생성 조건화 경로를 충분히 제어하지 못한다는 한계를 확인했습니다.
UCSD 연구진이 멀티모달 모델의 지식 편집이 텍스트와 이미지 생성 간에 큰 성능 차이를 보인다는 사실을 체계적으로 분석했습니다.
핵심 결론
- 태스크 — 멀티모달 모델(UMM)의 지식 편집이 텍스트 출력과 이미지 생성 간에 얼마나 전이되는지 평가.
- 수치 — 텍스트 측 편집 성공률은 약 92%인 반면, 직접 이미지 생성 시 VQA 정확도는 최대 18.5%에 불과.
- 개선 — 제안한 RPE(Reasoning-augmented Parameter Editing)로 최대 18.6%p 향상.
방법
- UniKE 벤치마크 — 2,971개 편집 대상(속성·관계)을 포함한 최초의 교차 모달리티 지식 편집 벤치마크.
- VQA 검증 — 이미지 생성 후 VQA로 정확도를 측정, 텍스트 편집만으로는 이미지 생성 조건화 경로를 충분히 제어하지 못함을 발견.
- RPE — 편집된 지식을 생성 전에 명시적으로 활성화하는 추론 증강 파라미터 편집 기법.
한계·조건
- 모델 — 실험은 특정 UMM 아키텍처에 국한될 수 있으며, 다른 구조에서의 일반화는 추가 검증 필요.
- 코드·데이터 — GitHub에 공개되어 재현 가능.
편집자 한 줄
텍스트 편집이 이미지 생성에 거의 영향을 못 미친다는 점은 멀티모달 모델의 내부 표현 정렬 문제를 잘 드러내네요.
- #multimodal
- #knowledge-editing
- #ucsd
- #vlm
University of California at San Diego