Papers·2일 전
JoyAI-Image: 통합 멀티모달 기초 모델 — 이해·생성·편집 벤치마크에서 SOTA

JoyAI-Image는 시각 이해, 텍스트-이미지 생성, 명령 기반 이미지 편집을 하나로 통합한 멀티모달 기초 모델입니다. 공간 인식 MLLM과 MMDiT을 결합해 공유 인터페이스로 인지와 생성을 연결했고, 통합 명령 튜닝·장문 텍스트 렌더링·공간 데이터·편집 신호를 포함한 확장 가능한 학습 레시피를 설계했습니다. 이해·생성·편집·장문 텍스트 렌더링 벤치마크에서 SOTA 또는 경쟁력 있는 성능을 보였으며, 특히 공간 지능이 강화된 점이 주목할 만합니다. 단, 대규모 compute가 필요해 재현성이 제한적일 수 있습니다.
- #multimodal
- #text-to-image
- #image-editing
- #joyai-image
Lin Song