Papers·3일 전
Lance: 경량 통합 모델로 이미지·비디오 이해·생성·편집을 하나의 아키텍처로 — 기존 오픈소스 대비 생성 성능 우위

ByteDance Research가 이미지·비디오의 이해, 생성, 편집을 모두 지원하는 경량 통합 모델 Lance를 공개했습니다. 모델 용량 확장이나 텍스트-이미지 중심 설계 대신, 다중 작업 협력 학습을 통해 공유 시퀀스 상에서 이해와 생성을 분리하는 듀얼 스트림 MoE 아키텍처를 도입했습니다. 특히 modality-aware rotary positional encoding으로 이종 비주얼 토큰 간 간섭을 줄이고 교차 정렬을 높인 점이 특징입니다. 기존 오픈소스 통합 모델 대비 이미지·비디오 생성에서 뚜렷한 성능 향상을 보였으며, 이해 능력도 유지합니다.
- #multimodal
- #generation
- #understanding
- #byte-dance
- #moe
bytedance-research