Papers·1개월 전

VideoRLVR — 비디오 확산 모델에 검증 가능한 강화 학습 적용, 규칙 기반 추론 벤치마크에서 SFT 대비 일관된 개선

VideoRLVR는 비디오 확산 모델이 단순한 지각적 생성이 아닌 규칙 기반 추론을 수행하도록 검증 가능한 보상(RLVR)을 활용한 최적화 방법입니다. SDE-GRPO 기반 학습, 밀집 분해 보상, 초기 단계 집중(Early-Step Focus) 전략으로 학습 지연 시간을 약 40% 줄이면서도 성능을 유지합니다. Maze, FlowFree, Sokoban 과제에서 SFT 기준선 및 기타 생성 모델을 능가했지만, 절차적 생성 도메인에 국한되어 실제 비디오 추론으로의 일반화는 추가 검증이 필요합니다.

#video-diffusion
#rlvr
#reasoning
#sde-grpo
#verifiable-rewards

Language Understanding and Knowledge Acquisition Lab

원문 보기 →

VideoRLVR — 비디오 확산 모델에 검증 가능한 강화 학습 적용, 규칙 기반 추론 벤치마크에서 SFT 대비 일관된 개선

Comments