Em que consiste a quarta fase?#
Essa fase organiza tutoriais, documentação e ferramentas para a execução de OCR e OLR em periódicos em língua portuguesa digitalizados.
Realizamos uma série de teste com diferentes ferramentas, desde CLI até GUI, e com diferentes níveis de complexidade. Também listamos uma série de lições do Programming Historian que são úteis para quem busca realizar OCR em jornais.
Buscamos avaliar ferramentas de código aberto e gratuitas. Mas ao final, também listamos uma série de opções proprietárias que podem ser úteis para quem busca realizar OCR em jornais.
Esse capítulo, portanto, está dividido da seguinte forma:
CLI: ferramentas de linha de comando, nomeadamente Tesseract, OCR-D e Kraken
GUI: ferramentas com interface gráfica de usuário, nomeadamente gImageReader
Lições do Programming Historian
Em cada um desses tópicos, apresentamos um conjuntos de tutoriais, documentação, testes e resultados obtidos.
Nosso objetivo, mas do que prover um passo-a-passo na utilização de cada ferramente, é apresentar as principais características, vantagens e desvantagens, e promover a reflexão crítica sobre seu uso.
Assim como todo esse framework, visamos subsidiar os pesquisadores com conhecimentos e material para elaborar consciente e criticamente seus fluxos de trabalho.