Papers·3일 전

ByteDance GenLIP: ViT가 언어 토큰을 직접 예측하는 생성적 사전학습 — 8B 샘플로 MLLM 벤치마크에서 경쟁력

ByteDance가 Vision Transformer(ViT)를 멀티모달 LLM에 맞게 정렬하는 생성적 사전학습 프레임워크 GenLIP을 공개했습니다. 기존 대비 대조 학습이나 별도 텍스트 디코더 없이, ViT가 시각 토큰에서 직접 언어 토큰을 예측하도록 학습하는 단순한 설계가 핵심입니다. Recap-DataComp-1B의 8B 샘플만으로도 강력한 기준선과 비슷하거나 더 나은 성능을 내며, 추가로 다중 해상도·원본 비율 이미지로 계속 사전학습하면 OCR과 차트 이해 같은 세부 태스크에서 개선됩니다. 다만 8B 샘플 규모와 데이터 구성의 영향은 추가 분석이 필요해 보입니다.

#genlip
#vision-transformer
#multimodal
#pretraining
#bytedance

ByteDance

원문 보기 →

ByteDance GenLIP: ViT가 언어 토큰을 직접 예측하는 생성적 사전학습 — 8B 샘플로 MLLM 벤치마크에서 경쟁력

Comments