10.1. Definição de estratégias: volume e qualidade dos dados#

As estratégias de tratamento das imagens de jornais digitalizados variam muito de acordo com o volume e a qualidade das páginas digitalizadas, e também serão condicionadas pelas disponibilidade de tempo, recursos e conhecimento técnico.

Avaliação do seu dataset#

Pensando na práticas de pesquisas individuais ou de pequenos grupos com baixo investimento e aporte de financiamento, indico que inicialmente seja realizada uma avaliação do conjunto de dados. Vamos listar alguns pontos que devem ser avaliados:

  1. Volume do dataset: é composto por milhares ou mais imagens, impossibilitando um tratamento individualizado e que, portanto, demande vasto potencial computacional para seu tratamento, ou é um conjunto de dados menor, que não ultrapassa a casa de mil imagens?

  2. Qualidade da digitalização: as imagens digitalizadas possuem resolução elevada e já foram pré-processadas (removendo ruídos, reduzindo curvaturas, manchas, já foram transformadas em imagens em escala de cinza, etc)?

  3. Seu projeto conta com financiamento específico para tratamento das imagens, treinamento de modelos para OCR, contratação de profissionais para realização dessas tarefas?

A partir da avaliação desses pontos, temos maiores coim dições de elaborar estratégias realistas para a etapa de OCR. Indico como encaminhamento possível três estratégias:

Estratégias#

A. Grande volume de dados (>1000)#

Caso seu projeto tenha que lidar com um grande volume de dados[1] (milhares de páginas digitalizadas), qualquer que seja a qualidade) indicamos a aplicação de ferramentas de linha de comando para a tarefa do OCR.

A depender da qualidade das imagens e do financiamento disponível essa estratégia deve variar.

  1. Se as imagens necessitem de um pré-processamento intenso (com correção de cores, redução de ruídos, etc) é fundamental aplicar as ferramentas de pré-processamento contidas no OCR-D, por exemplo. Se essas imagens possuírem boa qualidade de digitalização e resoluções elevadas, com fontes reconhecidas, sugerimos a aplicação dos modelos já disponíveis para a língua portuguesa (especialmente o tesseract por).

  2. Caso as imagens tenha baixa qualidade, fontes muito variadas, layouts complexos, será necessário o treinamento de um modelo de reconhecimento específico e uma grande capacidade computacional. Nesse caso, avaliamos ser uma boa opção utilizar o OCR-D, porém é necessário um grande investimento de tempo e recursos humanos e tecnológicos. Nesse framework, não realizaremos treinamentos de modelos específicos.

Se sua pesquisa se enquadra nessas características, indico a leitura atenta do capítulo 12

B. Volumes de dados reduzido (<1000)#

Caso seu projeto possua menos de mil imagens digitalizadas, seja qual for a qualidade das mesmas, indicamos a utilização do programa gImageReader. Ele é de código aberto, possui interface gráfica e utiliza o tesseract como motor de OCR. Ele permite que você trabalhe de forma mais individualizada para cada fonte, e realize as correções necessárias gerando resultados mais precisos. Demanda menos conhecimento técnico e investimento de recursos. Possibilita a correção manual e não depende do treinamento de um modelo específico para seus dados.

Nos próximos capítulos, vamos detalhar o uso de cada uma dessas ferramentas e comparar seus resultados.

Se sua pesquisa se enquadra nessas características, indico a leitura atenta do capítulo 13