Em que consiste a quarta fase?#

Essa fase organiza tutoriais, documentação e ferramentas para a execução de OCR e OLR em periódicos em língua portuguesa digitalizados.

Realizamos uma série de teste com diferentes ferramentas, desde CLI até GUI, e com diferentes níveis de complexidade. Também listamos uma série de lições do Programming Historian que são úteis para quem busca realizar OCR em jornais.

Buscamos avaliar ferramentas de código aberto e gratuitas. Mas ao final, também listamos uma série de opções proprietárias que podem ser úteis para quem busca realizar OCR em jornais.

Esse capítulo, portanto, está dividido da seguinte forma:

  • CLI: ferramentas de linha de comando, nomeadamente Tesseract, OCR-D e Kraken

  • GUI: ferramentas com interface gráfica de usuário, nomeadamente gImageReader

  • Lições do Programming Historian

Em cada um desses tópicos, apresentamos um conjuntos de tutoriais, documentação, testes e resultados obtidos.

Nosso objetivo, mas do que prover um passo-a-passo na utilização de cada ferramente, é apresentar as principais características, vantagens e desvantagens, e promover a reflexão crítica sobre seu uso.

Assim como todo esse framework, visamos subsidiar os pesquisadores com conhecimentos e material para elaborar consciente e criticamente seus fluxos de trabalho.

../_images/4fase_mermaid-diagram-2023-08-21-225902.png

Fig. 23 Diagrama da quarta fase#