Papers·어제

ByteDance Seed, 7B LVLM을 128K 컨텍스트로 확장한 LongPT 레시피 공개 — long-document VQA 7.1% 향상

ByteDance Seed 팀이 Qwen2.5-VL-7B를 32K에서 128K 컨텍스트로 지속 사전학습(LongPT)한 MMProLong을 공개했습니다. 5B 토큰 예산으로 실험한 결과, 긴 문서 VQA가 OCR 전사보다 훨씬 효과적이며, 균형 잡힌 시퀀스 길이 분포와 검증 중심 데이터 혼합이 핵심임을 발견했습니다. MMProLong은 128K 학습 윈도우를 넘어 256K, 512K에서도 성능을 유지하며, 웹페이지 기반 needle retrieval, 비전-텍스트 압축, 긴 비디오 이해 등으로 일반화됩니다. 단, 7B 모델 기준이며 재현에 필요한 코드와 데이터는 공개되지 않았습니다.

#long-context
#vision-language
#bytedance
#qwen2.5-vl
#training-recipe

ByteDance Seed

원문 보기 →

ByteDance Seed, 7B LVLM을 128K 컨텍스트로 확장한 LongPT 레시피 공개 — long-document VQA 7.1% 향상

Comments