ocrmypdf
Adicione uma camada de texto OCR em arquivos PDF OCRmyPDF gera um arquivo PDF/A pesquisável a partir de um PDF normal contendo apenas imagens, permitindo sua busca. . Ele usa o mecanismo Tesseract OCR e, portanto, suporta todos os idiomas que o Tesseract faz. . Algumas outras características principais: .
- Coloca o texto OCR com precisão abaixo da imagem para facilitar a cópia/cola
- Mantém a resolução exata das imagens incorporadas originais
- Quando possível, insere informações de OCR como uma operação sem perdas sem renderizar informações vetoriais
- Mantém o tamanho do arquivo aproximadamente o mesmo
- Se solicitado, enquadra e/ou limpa a imagem antes de realizar o OCR
- Valida arquivos de entrada e saída
- Fornece modo de depuração para permitir fácil verificação dos resultados de OCR
- Processa páginas em paralelo quando mais de um núcleo de CPU está disponível
- Testado em batalha em milhares de PDFs, um conjunto de testes e contínuo integração.
Instalação
apt install ocrmypdf tesseract-ocr-por
Uso
ocrmypdf -l por arquivo.pdf saida.pdf
#arquivo.pdf - documento pdf de origem a ser convertido em ocr/pdf editável
#saida.pdf - Arquivo de saída já convertido para PDF/A
# -l por | Define a linguagem para o ocr converter. Definindo como por (portugues) ele usará, pontuação, ç e etc.
Saída do comando
ennyjr@baldez-3i:~/Nextcloud2/Pessoal/EBD/2024/Revistas/segundo trimestre/Adultos$ ocrmypdf Revista\ Adultos\ 2T\ 2024.pdf revista.pdf
Scanning contents ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Start processing 8 pages concurrently ocr.py:97
1 lots of diacritics - possibly poor OCR tesseract.py:240
100 lots of diacritics - possibly poor OCR tesseract.py:240
OCR ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Postprocessing... ocr.py:146
Recompressing JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Deflating JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
JBIG2 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Image optimization ratio: 1.06 savings: 5.7% _pipeline.py:976
Total file size ratio: 1.05 savings: 4.8% _pipeline.py:979
Output file is a PDF/A-2B (as expected) _common.py:441