← Back to feed
Papers·어제

비디오 생성 모델을 태스크 해결사로 — 자기 증류 + 강화학습으로 지시 따르는 Executor

비디오 생성 모델을 태스크 해결사로 — 자기 증류 + 강화학습으로 지시 따르는 Executor

Sebastian Stapf 팀이 사전학습된 비디오 생성 모델을 태스크 해결용으로 전환하는 프레임워크를 제안했습니다. VLM이 생성한 상세 솔루션으로 Demonstrator를 조건화한 뒤, 그 행동을 Executor에 증류하고 VLM 피드백으로 강화학습하여 지시-조건부 태스크 해결 능력을 획득합니다. WorldTasks-Benchmark에서 Demonstrator 대비 VLM 평가 점수가 향상되었고, 로봇 태스크로도 전이 가능했습니다. 단, VLM 평가 프로토콜 자체에 의존적이라는 한계가 있습니다.

비디오 생성 모델이 단순한 생성기 이상으로 태스크 해결 능력을 가질 수 있도록, VLM이 만든 솔루션을 증류하고 강화학습으로 다듬는 접근입니다.

핵심 결론

  • 태스크사전학습된 비디오 생성 모델을 지시-조건부 태스크 해결사로 전환.
  • 벤치WorldTasks-Benchmark와 DreamGen 로봇 벤치에서 Demonstrator 대비 VLM 평가 점수 향상.
  • 전이로봇 태스크로도 경쟁력 있는 전이 성능을 보였습니다.

방법

  • 자기 증류VLM이 생성한 상세 솔루션으로 Demonstrator를 조건화한 뒤, Executor는 이미지와 짧은 태스크 프롬프트만으로 행동을 모방하도록 증류.
  • 강화학습VLM 피드백을 보상으로 Executor를 추가 학습 — 생성된 비디오가 태스크를 만족하는지 판단하는 비대칭성을 활용.
  • 데이터 효율태스크-실행 비디오 쌍 없이, VLM이 생성한 솔루션만으로 학습 가능해 확장성이 높습니다.

한계·조건

  • 평가 의존성VLM 평가 프로토콜 자체의 신뢰성에 성능이 의존적입니다.
  • 데이터 범위WorldTasks-Benchmark는 합성 데이터 기반으로, 실제 환경 일반화는 추가 검증이 필요합니다.
  • 코드코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

VLM이 생성한 솔루션을 증류하는 아이디어는 깔끔하지만, VLM 평가가 얼마나 정확한지가 전체 파이프라인의 신뢰도를 결정할 듯합니다.

  • #video-generation
  • #reinforcement-learning
  • #self-distillation
  • #task-solving
  • #vlms
Sebastian Stapf
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —