Papers·어제
Tuna-2: 픽셀 임베딩 기반 통합 멀티모달 모델 — 인코더 없이 이해와 생성 모두 SOTA

Tuna-2는 사전 학습된 비전 인코더 없이 픽셀 임베딩만으로 시각 이해와 생성을 동시에 수행하는 네이티브 통합 모델입니다. VAE나 표현 인코더 같은 모듈형 설계를 완전히 제거하고 단순 패치 임베딩 계층으로 대체했으며, 멀티모달 벤치마크에서 최고 성능을 기록했습니다. 인코더 기반 변형이 초기 학습에서 빠르게 수렴하는 반면, Tuna-2의 인코더-프리 설계는 규모가 커질수록 미세 시각 지각이 필요한 태스크에서 더 강력한 이해력을 보여줍니다. 흥미로운 점은 사전 학습된 비전 인코더가 멀티모달 모델링에 필수가 아니라는 점을 실험적으로 입증했다는 것입니다.
- #multimodal
- #pixel-space
- #tuna-2
- #encoder-free
- #huggingface
Zhiheng Liu