Papers·1개월 전

비디오 생성 모델을 태스크 해결사로 — 자기 증류 + 강화학습으로 지시 따르는 Executor

Sebastian Stapf 팀이 사전학습된 비디오 생성 모델을 태스크 해결용으로 전환하는 프레임워크를 제안했습니다. VLM이 생성한 상세 솔루션으로 Demonstrator를 조건화한 뒤, 그 행동을 Executor에 증류하고 VLM 피드백으로 강화학습하여 지시-조건부 태스크 해결 능력을 획득합니다. WorldTasks-Benchmark에서 Demonstrator 대비 VLM 평가 점수가 향상되었고, 로봇 태스크로도 전이 가능했습니다. 단, VLM 평가 프로토콜 자체에 의존적이라는 한계가 있습니다.

비디오 생성 모델이 단순한 생성기 이상으로 태스크 해결 능력을 가질 수 있도록, VLM이 만든 솔루션을 증류하고 강화학습으로 다듬는 접근입니다.

핵심 결론

태스크 — 사전학습된 비디오 생성 모델을 지시-조건부 태스크 해결사로 전환.
벤치 — WorldTasks-Benchmark와 DreamGen 로봇 벤치에서 Demonstrator 대비 VLM 평가 점수 향상.
전이 — 로봇 태스크로도 경쟁력 있는 전이 성능을 보였습니다.

방법

자기 증류 — VLM이 생성한 상세 솔루션으로 Demonstrator를 조건화한 뒤, Executor는 이미지와 짧은 태스크 프롬프트만으로 행동을 모방하도록 증류.
강화학습 — VLM 피드백을 보상으로 Executor를 추가 학습 — 생성된 비디오가 태스크를 만족하는지 판단하는 비대칭성을 활용.
데이터 효율 — 태스크-실행 비디오 쌍 없이, VLM이 생성한 솔루션만으로 학습 가능해 확장성이 높습니다.

한계·조건

평가 의존성 — VLM 평가 프로토콜 자체의 신뢰성에 성능이 의존적입니다.
데이터 범위 — WorldTasks-Benchmark는 합성 데이터 기반으로, 실제 환경 일반화는 추가 검증이 필요합니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

VLM이 생성한 솔루션을 증류하는 아이디어는 깔끔하지만, VLM 평가가 얼마나 정확한지가 전체 파이프라인의 신뢰도를 결정할 듯합니다.

#video-generation
#reinforcement-learning
#self-distillation
#task-solving
#vlms

Sebastian Stapf

원문 보기 →

비디오 생성 모델을 태스크 해결사로 — 자기 증류 + 강화학습으로 지시 따르는 Executor

핵심 결론

방법

한계·조건

Comments