Ships·1개월 전
SenseTime·NTU, NEO-unify 공개 — 인코더 없는 엔드투엔드 멀티모달 통합 모델

SenseTime과 난양공대(NTU)가 엔코더(VE, VAE) 없이 픽셀과 텍스트를 직접 입력받는 네이티브 통합 모델 NEO-unify를 프리뷰로 공개했습니다. 기존 멀티모달 모델이 비전 인코더와 VAE를 분리 사용하던 것과 달리, Mixture-of-Transformer(MoT) 구조로 이해와 생성을 하나의 모델에서 처리합니다. 2B 파라미터 모델이 MS COCO 2017에서 PSNR 31.56, SSIM 0.85를 기록해 Flux VAE(32.65, 0.91)에 근접했고, 텍스트는 autoregressive cross-entropy, 이미지는 pixel flow matching으로 학습합니다. 아직 프리뷰 단계라 실제 배포나 API 가용성은 불투명하지만, 인코더 프리 설계가 멀티모달 통합의 새로운 방향을 제시한 점은 주목할 만합니다.
- #huggingface
- #sensenova
- #neo-unify
- #multimodal
- #encoder-free
Hugging Face