Papers·1개월 전

SEGA: 해상도 확장 시 DiT 성능 저하 막는 훈련 없는 주의집중 스케일링

Toronto 대학 연구팀이 텍스트-이미지 생성 모델(DiT)이 훈련 범위를 벗어난 해상도에서 성능 저하를 겪는 문제를 해결하는 훈련 없는 방법 SEGA를 제안했습니다. 기존 방법이 RoPE 구성 요소에 균일한 스케일링을 적용해 전역 구조와 세부 디테일 사이에서 트레이드오프가 발생한 반면, SEGA는 각 denoising 단계에서 잠재 변수의 공간-주파수 구조에 따라 RoPE 구성 요소별로 동적으로 주의집중을 스케일링합니다. 실험 결과 여러 목표 해상도에서 구조적 일관성과 세부 충실도를 모두 개선하며 기존 훈련 없는 방법들을 능가했습니다.

#diffusion-transformers
#attention-scaling
#resolution-generalization
#university-of-toronto

University of Toronto Computer Science

원문 보기 →

SEGA: 해상도 확장 시 DiT 성능 저하 막는 훈련 없는 주의집중 스케일링

Comments