Papers·1개월 전

PaddleOCR-VL-1.6, 0.9B 모델로 OmniDocBench 96.33% 달성 — 지역 인식 데이터 최적화 + 강화학습

PaddleOCR-VL-1.6은 0.9B 파라미터의 소형 문서 파싱 모델로, OmniDocBench v1.6에서 96.33%의 SOTA를 기록했습니다. 이전 버전의 오류가 집중된 취약 영역을 식별해 데이터를 증강하고, 강화학습 기반 점진적 후훈련 레시피를 적용한 것이 핵심입니다. 단, 벤치마크 특화 가능성과 재현에 필요한 데이터셋 및 코드 공개 여부는 아직 확인되지 않았습니다.

PaddlePaddle 팀이 0.9B 소형 모델로 문서 파싱 벤치마크 최고점을 갱신했습니다.

핵심 결론

벤치 — OmniDocBench v1.6에서 96.33% 달성, 기존 SOTA를 경신.
모델 — 0.9B 파라미터로 경쟁력 있는 VLM들과 견줄 만한 성능.

방법

지역 인식 최적화 — 이전 모델의 취약 영역(불안정, 데이터 부족, 신호 불신)을 식별해 타겟 증강.
후훈련 레시피 — 선별된 데이터와 강화학습을 단계적으로 적용해 성능을 끌어올렸습니다.

한계·조건

공개 — 코드와 데이터셋 공개 여부는 아직 명확하지 않습니다.
범위 — OmniDocBench 외 다른 벤치마크에서의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

소형 모델로도 대형 VLM에 준하는 성능을 낸 점은 인상적이지만, 벤치마크 특화 가능성을 배제할 수 없어 후속 연구를 지켜볼 만합니다.

#paddleocr
#document-parsing
#reinforcement-learning
#paddlepaddle

PaddlePaddle

원문 보기 →

PaddleOCR-VL-1.6, 0.9B 모델로 OmniDocBench 96.33% 달성 — 지역 인식 데이터 최적화 + 강화학습

핵심 결론

방법

한계·조건

Comments