Papers·1개월 전

Tsinghua, AR 비디오 생성기 정렬 프레임워크 KVPO 공개 — ODE 기반 GRPO로 시각·모션·정렬 일관 개선

Tsinghua 팀이 streaming autoregressive 비디오 생성기를 인간 선호도에 맞추기 위한 ODE-네이티브 GRPO 프레임워크 KVPO를 제안했습니다. 기존 RL 방법이 noise 기반 탐색과 SDE 기반 surrogate policy를 사용해 distilled AR 모델의 ODE 동역학과 불일치했던 문제를, KVPO는 causal-semantic exploration으로 KV cache를 확률적으로 라우팅해 다양성을 확보하고, Trajectory Velocity Energy 기반 surrogate policy로 flow-matching 속도 공간에서 보상 가중 대비 목적을 최적화합니다. 여러 distilled AR 모델에서 단일 프롬프트 짧은 비디오와 다중 프롬프트 긴 비디오 모두에서 시각 품질, 모션 품질, 텍스트-비디오 정렬이 일관되게 개선되었습니다.

#video-generation
#alignment
#grpo
#ode
#tsinghua

Tsinghua University

원문 보기 →

Tsinghua, AR 비디오 생성기 정렬 프레임워크 KVPO 공개 — ODE 기반 GRPO로 시각·모션·정렬 일관 개선

Comments