← Back to feed
Papers·3일 전

STARFlow2: 자기회귀 정규화 플로우로 통합 멀티모달 생성 — 텍스트·이미지 동시 생성에서 KV 캐시 효율 2배

STARFlow2: 자기회귀 정규화 플로우로 통합 멀티모달 생성 — 텍스트·이미지 동시 생성에서 KV 캐시 효율 2배

Apple 연구진이 자기회귀 정규화 플로우(autoregressive normalizing flow)를 기반으로 텍스트와 이미지를 통합 생성하는 STARFlow2를 공개했습니다. 기존 LLM과 동일한 causal mask, KV-cache 구조를 공유해 디퓨전 기반 접근보다 구조적 불일치가 없고, 텍스트와 시각 출력이 KV-cache에 직접 들어가 재인코딩이 필요 없습니다. Pretzel 아키텍처 위에 VLM 스트림과 TarFlow 스트림을 residual skip connection으로 수직 결합했고, deep-shallow flow 설계와 통합 FAE 잠재 공간을 도입했습니다. 이미지 생성과 멀티모달 이해 벤치마크에서 경쟁력 있는 성능을 보였지만, 학습에 대규모 compute가 필요하다는 점은 감안해야 합니다.

Apple

Comments

— 첫 댓글을 남겨보세요 —