Ir para o conteúdo principal

ocrmypdf

Adicione uma camada de texto OCR em arquivos PDF OCRmyPDF gera um arquivo PDF/A pesquisável a partir de um PDF normal contendo apenas imagens, permitindo sua busca. . Ele usa o mecanismo Tesseract OCR e, portanto, suporta todos os idiomas que o Tesseract faz. . Algumas outras características principais: .

  • Coloca o texto OCR com precisão abaixo da imagem para facilitar a cópia/cola
  • Mantém a resolução exata das imagens incorporadas originais
  • Quando possível, insere informações de OCR como uma operação sem perdas sem renderizar informações vetoriais
  • Mantém o tamanho do arquivo aproximadamente o mesmo
  • Se solicitado, enquadra e/ou limpa a imagem antes de realizar o OCR
  • Valida arquivos de entrada e saída
  • Fornece modo de depuração para permitir fácil verificação dos resultados de OCR
  • Processa páginas em paralelo quando mais de um núcleo de CPU está disponível
  • Testado em batalha em milhares de PDFs, um conjunto de testes e contínuo integração.

Screenshot_20240517_134317.png

Instalação


apt install ocrmypdf tesseract-ocr-por
Uso
ocrmypdf -l por arquivo.pdf saida.pdf

#arquivo.pdf - documento pdf de origem a ser convertido em ocr/pdf editável
#saida.pdf - Arquivo de saída já convertido para PDF/A
# -l por | Define a linguagem para o ocr converter. Definindo como por (portugues) ele usará, pontuação, ç e etc.

Saída do comando

ennyjr@baldez-3i:~/Nextcloud2/Pessoal/EBD/2024/Revistas/segundo trimestre/Adultos$ ocrmypdf Revista\ Adultos\ 2T\ 2024.pdf revista.pdf
Scanning contents     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Start processing 8 pages concurrently                                                                                                                                             ocr.py:97
    1  lots of diacritics - possibly poor OCR                                                                                                                              tesseract.py:240
  100  lots of diacritics - possibly poor OCR                                                                                                                              tesseract.py:240
OCR                   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Postprocessing...                                                                                                                                                                ocr.py:146
Recompressing JPEGs   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Deflating JPEGs       ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
JBIG2                 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Image optimization ratio: 1.06 savings: 5.7%                                                                                                                               _pipeline.py:976
Total file size ratio: 1.05 savings: 4.8%                                                                                                                                  _pipeline.py:979
Output file is a PDF/A-2B (as expected)                                                                                                                                      _common.py:441