Papers·1개월 전

SGT: 이미지 분할을 생성 프록시로 삼아 통합 멀티모달 모델의 이해와 생성 정렬

상하이 자오퉁 대학 연구팀이 통합 멀티모달 모델(UMM)에서 시각 이해와 생성을 정렬하는 Semantic Generative Tuning(SGT)을 제안했습니다. 기존 UMM은 sparse 텍스트 신호와 dense 픽셀 목표를 독립적으로 최적화해 표현 공간이 분리되는 문제가 있었는데, SGT는 고수준 의미 태스크인 이미지 분할을 생성 프록시로 활용해 특징의 선형 분리성과 시각-텍스트 어텐션 패턴을 개선합니다. 다양한 벤치마크에서 멀티모달 이해와 생성 충실도가 일관되게 향상되었으며, 코드도 공개되었습니다.

#multimodal
#segmentation
#generative-tuning
#shanghai-jiao-tong

Shanghai Jiao Tong University

원문 보기 →

SGT: 이미지 분할을 생성 프록시로 삼아 통합 멀티모달 모델의 이해와 생성 정렬

Comments