← Back to feed
Papers·어제

Baidu Unlimited OCR — 32K 토큰 내에서 수십 페이지 문서를 단일 패스로 인식하는 상수 KV cache 설계

Baidu Unlimited OCR — 32K 토큰 내에서 수십 페이지 문서를 단일 패스로 인식하는 상수 KV cache 설계

Baidu가 DeepSeek OCR을 기반으로 decoder의 모든 attention을 Reference Sliding Window Attention(R-SWA)으로 교체한 Unlimited OCR을 공개했습니다. R-SWA는 디코딩 전 과정에서 KV cache를 상수로 유지하며, encoder의 높은 압축률과 결합해 표준 32K 최대 길이 내에서 수십 페이지 문서를 단일 forward pass로 인식합니다. 단, OCR 외에도 ASR, 번역 등에 적용 가능한 일반 파싱 attention 메커니즘이라는 점이 흥미롭습니다. 코드와 가중치는 GitHub에 공개되었습니다.

Baidu가 DeepSeek OCR의 decoder attention을 전면 교체해 KV cache 폭발 문제를 해결한 Unlimited OCR을 공개했습니다.

핵심 결론

  • 태스크수십 페이지 문서를 단일 forward pass로 인식하는 end-to-end OCR.
  • 효율디코딩 전 과정에서 KV cache가 상수로 유지되어 메모리와 속도 저하가 없습니다.
  • 일반성R-SWA는 OCR뿐 아니라 ASR, 번역 등 파싱 태스크에 적용 가능한 일반 메커니즘입니다.

방법

  • R-SWAReference Sliding Window Attention — decoder의 모든 attention layer를 교체해, 각 토큰이 고정된 크기의 슬라이딩 윈도우와 reference token만 attend 합니다.
  • KV cache윈도우 크기가 고정되어 있어 KV cache 크기가 시퀀스 길이에 비례하지 않고 상수로 유지됩니다.
  • 인코더DeepSeek OCR의 높은 압축률 인코더를 그대로 사용해 입력 이미지를 효율적으로 토큰화합니다.

한계·조건

  • 최대 길이표준 32K 최대 길이 내에서 동작하며, 그 이상은 추가 검증이 필요합니다.
  • 벤치마크논문에서 구체적인 OCR 벤치마크 수치(정확도, CER 등)는 공개되지 않았습니다.
  • 코드GitHub에 코드와 모델 가중치가 공개되어 재현 가능합니다.

편집자 한 줄

KV cache 상수화는 long-form OCR의 실용성을 크게 높일 아이디어입니다. 다만 OCR 정확도가 기존 대비 얼마나 유지되는지 수치가 필요해 보입니다.

  • #ocr
  • #attention
  • #kv-cache
  • #baidu
  • #deepseek
BAIDU
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —