12.3. Recomendações e conclusões#
A primeira conclusão importante, e que também é um chamado ao cuidado metodológico, é que a qualidade da digitalização (tanto em aspectos de resolução quanto da existência de rasuras, manchas, ruídos, curvaturas, etc) afeta profundamente os resultados obtidos com o OCR. Tratar cada uma das imagens em datasets muito amplos torna-se uma tarefa praticamente inviável para pesquisas individuais, e demanda muito conhecimento técnico, investimento e recursos computacionais.
Apesar disso, a aplicação de modelos pré-treinados mostraram o potencial dessa abordagem para o tratamento de dados em massa, principalmente no caso do OCR-D, com a combinação das ferramentas de pré-processamento das imagens, e o Tesseract, com o modelo por
para reconhecimento de layout e texto. Estas ferramentas do OCR-D são muito valiosas para preprocessar as imagens, realizar a binarização, normalização, redução de ruídos, curvaturas e abaulamentos nas imagens, e indicamos seu uso mesmo para pesquisas que utilizarem a abordagem B (utilização do gImageReader).
A dificuldade em reconhecimento do layout da página, e a segmentação de blocos de texto quando as imagens digitalizadas não apresentam uma qualidade elevada ainda representa um problema, quando lidamos com grande volume de dados. Por isso, para resultados mais precisos, fica evidente a necessidade do treinamento de um modelo específico para o layout e texto do dataset de pesquisa.
Ao compararmos os resultados do OCR-D com os do Kraken, tais conclusões ficam mais evidentes: os resultados foram muito inferiores do que com o OCR-D.
O Kraken é um programa muito rico e com muitas funcionalidades. Além de ser rápido e eficiente, sua interface de linha de comando é simples. Os resultados obtidos em nossos testes não devem ser entendidos como um problema do programa, mas sim indicar a necessidade do treinamento de modelos específicos para layouts de jornais históricos e sobretudo de modelos em português.
Nos testes com Kraken utilizamos o modelo padrão em inglês, pois não existem modelos pré-treinados disponíveis de português e jornais históricos. E assim, obtivemos resultados muito comprometidos, inviabilizando seu uso.
Diante disto, é importante refletirmos sobre a necessidade de projetos multidisciplinares com financiamento público adequado visando a capacitação e desenvolvimento de tais pesquisas que contemplem o tratamento e treinamento de modelos de OCR para jornais históricos em língua portuguesa.
Para projetos de pesquisa onde historiadores lidam com algumas centenas de páginas de jornais digitalizados, acredito que seja mais proveitoso uma combinação entre OCR-D e o gImageReader[1]. O OCR-D para realizar a binarização, normalização, redução de ruídos, curvaturas e abaulamentos nas imagens, e o gImageReader para realizar o reconhecimento do layout e de texto, assim como a revisão final dos resultados.