Papers·1개월 전

Flash-GRPO: 단일 스텝 학습으로 14B 비디오 확산 모델 정렬 가속 — 100 GPU 일 절감

Xiaoxuan He 팀이 Group Relative Policy Optimization(GRPO) 기반 비디오 확산 모델 정렬에서 학습 효율을 극적으로 개선한 Flash-GRPO를 제안했습니다. 기존 GRPO는 14B 모델 학습에 수백 GPU 일이 필요하고, 슬라이딩 윈도우로 타임스텝을 서브샘플링하면 불안정해져 전체 궤적 성능에 미치지 못합니다. Flash-GRPO는 iso-temporal grouping으로 타임스텝 간 분산을 제거하고, temporal gradient rectification으로 그레이디언트 크기 차이를 보정해 단일 스텝 학습만으로도 전체 궤적 학습과 동등하거나 더 나은 정렬 품질을 달성합니다. 1.3B~14B 파라미터 모델 실험에서 안정적인 가속과 SOTA 정렬 품질을 확인했지만, 실험 환경(GPU 수, 데이터셋 규모)에 대한 구체적인 정보는 논문에서 확인해야 합니다.

#grpo
#video-diffusion
#alignment
#efficiency
#xiaoxuan-he

Xiaoxuan He

원문 보기 →

Flash-GRPO: 단일 스텝 학습으로 14B 비디오 확산 모델 정렬 가속 — 100 GPU 일 절감

Comments