ocrmypdf

Adicione uma camada de texto OCR em arquivos PDF OCRmyPDF gera um arquivo PDF/A pesquisável a partir de um PDF normal contendo apenas imagens, permitindo sua busca. . Ele usa o mecanismo Tesseract OCR e, portanto, suporta todos os idiomas que o Tesseract faz. . Algumas outras características principais: .

Coloca o texto OCR com precisão abaixo da imagem para facilitar a cópia/cola
Mantém a resolução exata das imagens incorporadas originais
Quando possível, insere informações de OCR como uma operação sem perdas sem renderizar informações vetoriais
Mantém o tamanho do arquivo aproximadamente o mesmo
Se solicitado, enquadra e/ou limpa a imagem antes de realizar o OCR
Valida arquivos de entrada e saída
Fornece modo de depuração para permitir fácil verificação dos resultados de OCR
Processa páginas em paralelo quando mais de um núcleo de CPU está disponível
Testado em batalha em milhares de PDFs, um conjunto de testes e contínuo integração.

Instalação

apt install ocrmypdf tesseract-ocr-por

Uso

ocrmypdf -l por arquivo.pdf saida.pdf

#arquivo.pdf - documento pdf de origem a ser convertido em ocr/pdf editável
#saida.pdf - Arquivo de saída já convertido para PDF/A
# -l por | Define a linguagem para o ocr converter. Definindo como por (portugues) ele usará, pontuação, ç e etc.

Saída do comando

ennyjr@baldez-3i:~/Nextcloud2/Pessoal/EBD/2024/Revistas/segundo trimestre/Adultos$ ocrmypdf Revista\ Adultos\ 2T\ 2024.pdf revista.pdf
Scanning contents     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Start processing 8 pages concurrently                                                                                                                                             ocr.py:97
    1  lots of diacritics - possibly poor OCR                                                                                                                              tesseract.py:240
  100  lots of diacritics - possibly poor OCR                                                                                                                              tesseract.py:240
OCR                   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Postprocessing...                                                                                                                                                                ocr.py:146
Recompressing JPEGs   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Deflating JPEGs       ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
JBIG2                 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Image optimization ratio: 1.06 savings: 5.7%                                                                                                                               _pipeline.py:976
Total file size ratio: 1.05 savings: 4.8%                                                                                                                                  _pipeline.py:979
Output file is a PDF/A-2B (as expected)                                                                                                                                      _common.py:441

tesseract-ocr

Stirling-PDF

ocrmypdf

ocrmypdf

Instalação

Uso