Papers·어제
INSET: 이미지를 문장의 어휘로 임베딩한 통합 생성 모델 — InterleaveBench에서 SOTA 대비 15% 개선

Yabo Zhang 팀이 제안한 INSET은 이미지를 텍스트 명령어의 네이티브 어휘로 임베딩하는 통합 생성 모델입니다. 기존 방식이 이미지와 텍스트를 구조적으로 분리해 장거리 의존성 문제를 겪는 반면, INSET은 시각 피처를 해당 의미 슬롯에 직접 배치해 transformer의 contextual locality로 정밀한 객체 바인딩을 달성합니다. 15M 합성 데이터로 학습한 결과, InterleaveBench에서 다중 이미지 일관성과 텍스트 정렬 모두에서 SOTA를 크게 앞질렀으며, 입력 복잡도가 증가할수록 격차가 벌어집니다. 단, 합성 데이터 의존도와 8×A100 환경 기준이라는 점은 한계입니다.
- #multimodal
- #image-generation
- #interleaved-instructions
- #INSET
- #Yabo-Zhang
Yabo Zhang