Papers·1개월 전

CLVR: 폐루프 시각 추론으로 T2I 복잡성 해결 — 4 NFEs 추론으로 SOTA 근접

중국과학기술대학 팀이 텍스트-이미지 생성에서 다단계 추론의 환각·최적화 불안정·지연 문제를 해결하는 CLVR 프레임워크를 제안했습니다. 단계별 시각 검증 데이터 엔진, Proxy Prompt 강화학습(PPRL)으로 장기 컨텍스트 보상 신호를 명확히 하고, Δ-Space Weight Merge(DSWM)로 추론 비용을 4 NFEs까지 줄였습니다. 오픈소스 기준 여러 벤치마크에서 SOTA를 달성했으며 상용 모델에 근접했지만, 학습 파이프라인이 복잡하고 재현에 상당한 컴퓨팅 자원이 필요합니다.

#text-to-image
#visual-reasoning
#reinforcement-learning
#diffusion
#ustc

University of Science and Technology of China

원문 보기 →

CLVR: 폐루프 시각 추론으로 T2I 복잡성 해결 — 4 NFEs 추론으로 SOTA 근접

Comments