Papers·3일 전
Aurora: VLM 에이전트가 비디오 편집의 모호한 요청을 자동 해석 — AgentEdit-Bench 공개

Yongsheng Yu 팀이 제안한 Aurora는 사용자의 불완전한 요청(텍스트·참조 이미지·공간 지정 누락)을 VLM 에이전트가 분석해 편집 계획으로 변환한 뒤, 통합 diffusion transformer가 실행하는 에이전틱 비디오 편집 프레임워크입니다. VLM 에이전트는 지도 학습과 선호 쌍으로 훈련되어, 기존 편집 모델과 호환되면서도 모호한 입력에서도 정확한 편집을 수행합니다. AgentEdit-Bench에서 instruction-only 대비 성능이 개선되었으나, VLM 에이전트의 추론 비용이 추가로 든다는 점은 한계입니다.
- #video-editing
- #vlm-agent
- #diffusion-transformer
- #agentedit-bench
Yongsheng Yu