Papers·1개월 전

HYDRA-X: 단일 ViT로 이미지·비디오 토크나이저 통합한 최초의 UMM

Nanjing University 팀이 단일 Vision Transformer(ViT)로 이미지와 비디오 토크나이저를 통합한 최초의 UMM(Unified Multimodal Model)인 HYDRA-X를 제안했습니다. 핵심은 프레임 수준의 causal temporal attention과 계층적 temporal compression으로 비디오 재구성 효율을 높이고, 경량 decompressor로 공동 이미지-비디오 teacher supervision을 통해 잠재 공간에 의미 정보를 주입한 점입니다. 7B dense 모델에서 이미지·비디오 이해 및 생성 태스크에서 강력한 성능을 보였으나, full spatiotemporal attention이 오히려 재구성을 저해하는 등 디자인 선택에 따른 trade-off가 존재합니다.

Nanjing University가 단일 ViT로 이미지와 비디오 토크나이저를 통합한 최초의 UMM인 HYDRA-X를 공개했습니다.

핵심 결론

태스크 — 이미지·비디오 이해 및 생성 — 단일 ViT 기반 통합 토크나이저로 두 도메인을 동시에 처리.
성능 — 7B dense 모델에서 이미지 이해, 비디오 이해, 생성 태스크 전반에서 강력한 결과.

방법

핵심 아이디어 — ViT에 프레임 수준 causal temporal attention과 계층적 temporal compression을 도입해 비디오 재구성 효율 확보.
의미 주입 — 경량 decompressor가 압축된 temporal feature를 업샘플링하며 이미지·비디오 teacher supervision으로 잠재 공간에 의미 구조 강제.
편집 파이프라인 개선: source-target 상호작용을 LLM의 의미 수준이 아닌 토크나이저 내 잠재 수준에서 수행해 일관성 향상 및 수렴 가속.

한계·조건

디자인 trade-off — Full spatiotemporal attention은 오히려 재구성 성능을 떨어뜨려 causal attention이 더 효과적.
스케일 — 7B dense 모델 기준 — 더 큰 모델이나 MoE 구조에서의 일반화는 추가 검증 필요.
코드 — 논문 내 코드 공개 여부 불명 — 재현성 확인 필요.

편집자 한 줄

통합 토크나이저 방향성은 확실히 매력적이나, full spatiotemporal attention이 오히려 독이 되는 점은 추후 연구에서 더 깊은 분석이 필요해 보입니다.

#unified-multimodal-model
#visual-tokenizer
#video-understanding
#nanjing-university

Nanjing University

원문 보기 →

HYDRA-X: 단일 ViT로 이미지·비디오 토크나이저 통합한 최초의 UMM

핵심 결론

방법

한계·조건

Comments