← Back to feed
Papers·어제

CLVR: 폐루프 시각 추론으로 T2I 복잡성 해결 — 4 NFEs 추론으로 SOTA 근접

CLVR: 폐루프 시각 추론으로 T2I 복잡성 해결 — 4 NFEs 추론으로 SOTA 근접

중국과학기술대학 팀이 텍스트-이미지 생성에서 다단계 추론의 환각·최적화 불안정·지연 문제를 해결하는 CLVR 프레임워크를 제안했습니다. 단계별 시각 검증 데이터 엔진, Proxy Prompt 강화학습(PPRL)으로 장기 컨텍스트 보상 신호를 명확히 하고, Δ-Space Weight Merge(DSWM)로 추론 비용을 4 NFEs까지 줄였습니다. 오픈소스 기준 여러 벤치마크에서 SOTA를 달성했으며 상용 모델에 근접했지만, 학습 파이프라인이 복잡하고 재현에 상당한 컴퓨팅 자원이 필요합니다.

  • #text-to-image
  • #visual-reasoning
  • #reinforcement-learning
  • #diffusion
  • #ustc
University of Science and Technology of China

Comments

— 첫 댓글을 남겨보세요 —