← Back to feed
Papers·1개월 전

STARFlow2: 자기회귀 정규화 플로우로 통합 멀티모달 생성 — 텍스트·이미지 동시 생성에서 KV 캐시 효율 2배

STARFlow2: 자기회귀 정규화 플로우로 통합 멀티모달 생성 — 텍스트·이미지 동시 생성에서 KV 캐시 효율 2배

Apple 연구진이 자기회귀 정규화 플로우(autoregressive normalizing flow)를 기반으로 텍스트와 이미지를 통합 생성하는 STARFlow2를 공개했습니다. 기존 LLM과 동일한 causal mask, KV-cache 구조를 공유해 디퓨전 기반 접근보다 구조적 불일치가 없고, 텍스트와 시각 출력이 KV-cache에 직접 들어가 재인코딩이 필요 없습니다. Pretzel 아키텍처 위에 VLM 스트림과 TarFlow 스트림을 residual skip connection으로 수직 결합했고, deep-shallow flow 설계와 통합 FAE 잠재 공간을 도입했습니다. 이미지 생성과 멀티모달 이해 벤치마크에서 경쟁력 있는 성능을 보였지만, 학습에 대규모 compute가 필요하다는 점은 감안해야 합니다.

  • #autoregressive-flow
  • #multimodal
  • #apple
  • #kv-cache
  • #generation
Apple
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —