Papers·1개월 전

Zhejiang University, 비디오 생성 모델에 물리 상식 주입 — NEWTON으로 VideoPhy-2 정확도 37.4%

Zhejiang University 팀이 비디오 생성 모델이 물리적 상식을 위반하는 문제를 해결한 NEWTON을 공개했습니다. 텍스트 프롬프트가 물리적 세계를 손실 압축한다는 진단에서 출발해, 비디오 생성을 단순 출력이 아닌 도구 상자의 한 액션으로 격하하고, 학습된 플래너가 키프레임 생성·과학 계산·프롬프트 정제를 오케스트레이션하며 검증기가 반복 계획을 닫는 구조입니다. 플래너만 학습 가능하며 Flow-GRPO로 온폴리시 최적화됩니다. VideoPhy-2에서 LTX-Video는 21.4%→29.7%, Veo-3.1은 30.7%→37.4%로 joint accuracy가 향상되었고, 생성기 자체는 수정하지 않습니다. 단, 검증기와 과학 계산 모듈에 추가 리소스가 필요해 추론 비용이 증가하는 조건이 붙습니다.

#video-generation
#physics
#zhejiang-university
#flow-grpo
#videophy-2

Zhejiang University

원문 보기 →

Zhejiang University, 비디오 생성 모델에 물리 상식 주입 — NEWTON으로 VideoPhy-2 정확도 37.4%

Comments