Papers·1개월 전

Microsoft, 3.8B 파라미터 T2I 모델 Lens 공개 — 6B 이상 모델과 경쟁, 학습 비용 19.3%

Microsoft가 3.8B 파라미터의 텍스트-이미지 생성 모델 Lens를 공개했습니다. 6B 이상의 SOTA 모델과 경쟁하거나 능가하는 성능을 보이면서도 학습 비용은 Z-Image의 19.3%만 필요합니다. 효율성의 핵심은 GPT-4.1로 생성된 평균 109단어의 고밀도 캡션 데이터셋 Lens-800M과 다양한 해상도·종횡비를 한 배치에 섞는 전략, semantic VAE 및 강력한 언어 인코더 덕분입니다. 추가로 RL 기반 미세조정(Lens-RL-8K), 학습 없는 시스템 프롬프트 탐색을 통한 정렬, 증류 기반 4-step 추론 가속을 적용했습니다. 1024² 이미지를 H100에서 3.15초, turbo 버전은 0.84초에 생성하며, 1:2~2:1 종횡비와 1440² 해상도, 여러 언어를 지원합니다.

#text-to-image
#microsoft
#efficient-training
#rl
#distillation

Microsoft

원문 보기 →

Microsoft, 3.8B 파라미터 T2I 모델 Lens 공개 — 6B 이상 모델과 경쟁, 학습 비용 19.3%

Comments