← Back to feed
Papers·3일 전

UniVidX: 비디오 확산 모델 하나로 RGB·알베도·알파 등 다양한 태스크 통합 — 1,000개 미만 영상으로 SOTA 근접

UniVidX: 비디오 확산 모델 하나로 RGB·알베도·알파 등 다양한 태스크 통합 — 1,000개 미만 영상으로 SOTA 근접

UniVidX는 비디오 확산 모델(VDM)의 사전 지식을 활용해 RGB, intrinsic map, RGBA 레이어 등 다양한 픽셀 정렬 태스크를 단일 프레임워크로 처리합니다. Stochastic Condition Masking으로 입출력 매핑을 고정하지 않고, Decoupled Gated LoRA로 모달리티별 분포에 적응하며, Cross-Modal Self-Attention으로 모달 간 일관성을 높입니다. 1,000개 미만의 영상으로 학습해도 각 태스크에서 SOTA와 경쟁력 있는 성능을 보입니다.

Houyuan Chen

Comments

— 첫 댓글을 남겨보세요 —