Papers·3개월 전

World-R1: 강화 학습으로 비디오 생성에 3D 일관성 주입 — Flow-GRPO + 주기적 분리 훈련

Microsoft Research 팀이 비디오 생성 모델에 3D 기하 일관성을 강화 학습으로 주입하는 World-R1 프레임워크를 제안했습니다. 기존 아키텍처 수정 방식과 달리, Flow-GRPO를 통해 사전 훈련된 3D 기초 모델과 VLM의 피드백을 활용해 구조적 일관성을 학습하며, 주기적 분리 훈련 전략으로 기하학적 정합성과 동적 장면 유연성을 균형 있게 유지합니다. 3D 일관성이 크게 향상되었지만, 추가적인 RL 파이프라인과 피드백 모델이 필요해 연산 비용이 증가한다는 한계가 있습니다.

#video-generation
#reinforcement-learning
#3d-consistency
#microsoft-research

Microsoft Research

원문 보기 →

World-R1: 강화 학습으로 비디오 생성에 3D 일관성 주입 — Flow-GRPO + 주기적 분리 훈련

Comments