Papers·2일 전
HYDRA-X: 단일 ViT로 이미지·비디오 토크나이저 통합한 최초의 UMM

Nanjing University 팀이 단일 Vision Transformer(ViT)로 이미지와 비디오 토크나이저를 통합한 최초의 UMM(Unified Multimodal Model)인 HYDRA-X를 제안했습니다. 핵심은 프레임 수준의 causal temporal attention과 계층적 temporal compression으로 비디오 재구성 효율을 높이고, 경량 decompressor로 공동 이미지-비디오 teacher supervision을 통해 잠재 공간에 의미 정보를 주입한 점입니다. 7B dense 모델에서 이미지·비디오 이해 및 생성 태스크에서 강력한 성능을 보였으나, full spatiotemporal attention이 오히려 재구성을 저해하는 등 디자인 선택에 따른 trade-off가 존재합니다.
Nanjing University가 단일 ViT로 이미지와 비디오 토크나이저를 통합한 최초의 UMM인 HYDRA-X를 공개했습니다.
핵심 결론
- 태스크 — 이미지·비디오 이해 및 생성 — 단일 ViT 기반 통합 토크나이저로 두 도메인을 동시에 처리.
- 성능 — 7B dense 모델에서 이미지 이해, 비디오 이해, 생성 태스크 전반에서 강력한 결과.
방법
- 핵심 아이디어 — ViT에 프레임 수준 causal temporal attention과 계층적 temporal compression을 도입해 비디오 재구성 효율 확보.
- 의미 주입 — 경량 decompressor가 압축된 temporal feature를 업샘플링하며 이미지·비디오 teacher supervision으로 잠재 공간에 의미 구조 강제.
- 편집 파이프라인 개선: source-target 상호작용을 LLM의 의미 수준이 아닌 토크나이저 내 잠재 수준에서 수행해 일관성 향상 및 수렴 가속.
한계·조건
- 디자인 trade-off — Full spatiotemporal attention은 오히려 재구성 성능을 떨어뜨려 causal attention이 더 효과적.
- 스케일 — 7B dense 모델 기준 — 더 큰 모델이나 MoE 구조에서의 일반화는 추가 검증 필요.
- 코드 — 논문 내 코드 공개 여부 불명 — 재현성 확인 필요.
편집자 한 줄
통합 토크나이저 방향성은 확실히 매력적이나, full spatiotemporal attention이 오히려 독이 되는 점은 추후 연구에서 더 깊은 분석이 필요해 보입니다.
- #unified-multimodal-model
- #visual-tokenizer
- #video-understanding
- #nanjing-university
Nanjing University