Papers·3개월 전

비디오 확산 모델 후처리 파이프라인 — SFT + RLHF + 프롬프트 강화 + 추론 최적화로 품질·일관성·비용 개선

대규모 비디오 확산 모델의 프롬프트 민감도, 시간적 불일치, 높은 추론 비용 문제를 해결하기 위해 네 단계 후처리 프레임워크를 제안했습니다. 먼저 SFT로 명령어 추종 능력을 안정화하고, 비디오 확산에 맞춘 GRPO 기반 RLHF로 지각 품질과 시간적 일관성을 높인 뒤, 언어 모델로 프롬프트를 개선하고 마지막으로 추론 최적화로 효율을 개선합니다. 실험 결과, 샘플링 비용 제약 내에서 아티팩트를 줄이고 제어 가능성과 시각적 미학을 크게 향상시켰습니다. 다만 이 파이프라인이 모든 비디오 모델에 일반화되는지는 추가 검증이 필요합니다.

#video-diffusion
#rlhf
#grpo
#post-training
#inference-optimization

Zeyue Xue

원문 보기 →

비디오 확산 모델 후처리 파이프라인 — SFT + RLHF + 프롬프트 강화 + 추론 최적화로 품질·일관성·비용 개선

Comments