Papers·1개월 전

SenseNova-U1: 이해와 생성을 하나로 통합한 네이티브 멀티모달 모델

SenseTime이 이해(understanding)와 생성(generation)을 별도로 다루던 기존 VLM의 구조적 한계를 극복한 통합 멀티모달 패러다임 SenseNova-U1을 공개했습니다. 8B dense와 30B-A3B MoE 기반의 두 변종은 이해 전용 VLM과 견줄 만한 성능을 보이면서도, 텍스트·이미지 생성 및 interleaved generation에서 강력한 일관성과 충실도를 달성했습니다. 특히 think pattern 유무에 관계없이 X2I 합성, 복잡한 텍스트-리치 인포그래픽 생성 등을 처리하며, VLA와 world model 시나리오에서도 가능성을 보였습니다. 다만 학습 데이터와 전략이 공개되었음에도 재현에 상당한 compute가 필요할 것으로 보입니다.

#vlms
#multimodal
#understanding
#generation
#sensetime

Haiwen Diao

원문 보기 →

SenseNova-U1: 이해와 생성을 하나로 통합한 네이티브 멀티모달 모델

Comments