13.1. Testando o gImageReader#

../../_images/gimagereader.png

Fig. 54 Logo do gImageReader, desenvolvido por Sandro Mani.#

O gImageReader é um programa front-end que aplica o tesseract-ocr para reconhecimento de caracteres em imagens e PDFs. Ele é uma interface gráfica criada com GTK/QT[1] por Sandro Mani com licença GNU GPL v3.

Atualmente (versão 3.4.1) o programa está disponível para Windows e Linux e 100% traduzido para 6 idiomas incluindo o português (brasileiro).

O gImageReader possui características muito úteis para a pesquisa com jornais digitalizados. Segundo a documentação:

  • Import PDF documents and images from disk, scanning devices, clipboard and screenshots

  • Process multiple images and documents in one go

  • Manual or automatic recognition area definition

  • Recognize to plain text or to hOCR documents

  • Recognized text displayed directly next to the image

  • Post-process the recognized text, including spellchecking

  • Generate PDF documents from hOCR documents

Instalação#

Na página de documentação do gImageReader encontramos a lista de distribuições Linux que possuem pacotes para instalação, assim como o link para download da versão para Windows e o link para download do código fonte.

Aqui, vamos instalar a versão para Ubuntu 22.04 LTS (e derivados) e em seguida, veremos um vídeo tutorial de instalação e uso para Windows 10.

Ubuntu 22.04#

sudo add-apt-repository ppa:sandromani/gimagereader #adiciona o repositório
sudo apt update # atualiza a lista de pacotes
sudo apt install gimagereader-gtk # instala o gimagereader

Após a instalação, é só procurar pelo programa no menu de aplicativos do seu sistema.

Tesseract-ocr#

Caso você ainda não tenha instalado o Tesseract, você receberá uma mensagem do programa informando:

Nenhum idioma do Tesseract disponível para uso. O reconhecimento de caracteres não vai funcionar.

Então podemos instalar o tesseract e dependências com o comando:

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

Para saber se a instalação foi concluída corretamente, execute, em seu terminal, o comando tesseract --version para saber a versão instalada. Em seguida execute o comando tesseract --list-langs para saber quais idiomas estão disponíveis.

tesseract --list-langs

O resultado dever ser algo parecido com isso:

List of available languages (2):
eng
osd

Para instalar o idioma português, execute o comando:

sudo apt install tesseract-ocr-por

Após a instalação do tesseract, o gImageReader iniciará sem o aviso e podemos utilizá-lo normalmente.

Para saber mais sobre o processo de instalação do tesseract, acesse o link.

Windows 10#

O processo de instalação do gImageReader no Windows é simples, e um tutorial detalhado pode ser visto no vídeo abaixo:

Utilizando o gImageReader#

O vídeo tutorial mostra as funções básicas do gImageReader[2]. Para nossa pesquisa, estamos interessados em comparar os resultados do reconhecimento de layouts e de caracteres produzido por esse programa com os resultados obtidos com OCR-D e Kraken.

Resultados#

Inserimos no programa as 5 páginas de exemplo utilizadas anteriormente com OCR-D e Kraken. Também inserimos as versões das imagens que haviam sido pré-processadas com o OCR-D (binarização, normalização, redução de ruídos e de inclinação).

../../_images/gir_01_2023-08-10_10-15-34.png

Fig. 55 gImageReader: visualização inicial com imagens de exemplo.#

Reconhecimento de layouts#

O reconhecimento foi realizado com a opção hocr e a saída foi salva como gir_hocr_output.html e pode ser acessada aqui. Também exportamos o resultado de cada página como um arquivo de texto, que podem ser acessados aqui.

../../_images/gir_02_2023-08-10_10-42.png

Fig. 56 gImageReader: visualização com resultados de reconhecimento.#

Além do reconhecimento utilizando o método hocr, realizamos o reconhecimento de layout automático (recurso possível na opção de reconhecimento de texto simples).

Ao analisarmos o resultado final, percebemos que os resultados foram semelhantes aos obtidos com o OCR-D. E que na comparação dos resultados do reconhecimento de layout automático entre as páginas originais e tratadas previamente pelo OCR-D, notamos que ou os resultados foram similares ou melhores com as imagens originais.

Vejamos as imagens de cada exemplo (a primeira imagem é a original e a segunda é a imagem tratada pelo OCR-D):

O Pais, p.1#

../../_images/gir_layout_paiz01_or_2023-08-10_11-04-27.png

Fig. 57 gImageReader: Reconhecimento de layout da página 01 de O Paiz original#

../../_images/gir_layout_paiz01_ocr-d_2023-08-10_11-06-30.png

Fig. 58 gImageReader: Reconhecimento de layout da página 01 de O Paiz pré-processada com OCR-D#

O Pais, p.2#

../../_images/gir_layout_paiz02_or_2023-08-10_11-08-00.png

Fig. 59 gImageReader: Reconhecimento de layout da página 02 de O Paiz original#

../../_images/gir_layout_paiz02_ocr-d_2023-08-10_11-09-03.png

Fig. 60 gImageReader: Reconhecimento de layout da página 02 de O Paiz pré-processada com OCR-D#

Boletim de Eugenia, p.1#

../../_images/gir_layout_be01_or_2023-08-10_11-09-54.png

Fig. 61 gImageReader: Reconhecimento de layout da página 01 do Boletim de Eugenia original#

../../_images/gir_layout_be01_ocr-d_2023-08-10_11-10-52.png

Fig. 62 gImageReader: Reconhecimento de layout da página 01 do Boletim de Eugenia pré-processada com OCR-D#

Boletim de Eugenia, p.2#

../../_images/gir_layout_be02_or_2023-08-10_11-11-31.png

Fig. 63 gImageReader: Reconhecimento de layout da página 02 do Boletim de Eugenia original#

../../_images/gir_layout_be02_ocr-d_2023-08-10_11-12-11.png

Fig. 64 gImageReader: Reconhecimento de layout da página 02 do Boletim de Eugenia pré-processada com OCR-D#

Boletim de Eugenia, p.3#

../../_images/gir_layout_be03_or_2023-08-10_11-12-50.png

Fig. 65 gImageReader: Reconhecimento de layout da página 03 do Boletim de Eugenia original#

../../_images/gir_layout_be03_ocr-d_2023-08-10_11-13-18.png

Fig. 66 gImageReader: Reconhecimento de layout da página 03 do Boletim de Eugenia pré-processada com OCR-D#

Reconhecimento de texto#

Exportamos os resultados do reconhecimento de texto com o método hocr para ficheiros txt de cada página utilizada como exemplo. Os ficheiros estão organizados no diretório outuputs.

Vejamos a comparação dos textos obtidos com OCR-D (utilizando o tesseracr por), gImageReader com imagem original e gImageReader com imagem tratada.

Página 1, O Paiz#

Na tabela abaixo, apresentamos a comparação dos primeiros blocos de texto da página 1 de O Paiz.

Original

OCR-D Tesseract por

gImageReader Imagem Original

gImageReader Imagem Tratada

ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 a\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nprocesso de sua invenção, destinado a\nfabricar pannos finos, morins e brins de\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José Teixeira, brazileiro, me-\ndico, morador nesta cidade, representado\n\npelo seu procurador o Club Industrial,\nfundado e estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas e particulares, deno-\nminado — carroça inodora.

RC CISCO E\n\nPor decreto de 8 de Janeiro ultimo\nconccdeu-se a patente de n. dhj q\nAugusto Cambrais, portu ez, indus-\ntriol, residente nesta ci ade, para 0\nrocesso de sua invenção, destinado q\nubricar pannos finos, morins ce brins de\nalcodão alvejados,\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria no Dr. Gui-\nlherme José Teixeira, brazileiro, mo:\ndico, morador nesta cidade re resentido\nelo seu procurador o Club ndustrial,\nundado 6 estabelecido tambem nesta\ncidade, para transporte do lixo dus ha-\nbitações publicas 6 particulares, deno-\nminado — carroça inodora.

ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 à\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nrocesso de sua invenção, destinado a\nabricar pannos finos, morins c brins do\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José “Teixeira, brazileiro, mo-\ndico, morador nesta cidade, representado\n\nelo seu procurador o Club Industrial,\nundado c estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas o particulares, deno-\nminado — carroça inodora.

ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 à\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nrocesso de sua invenção, destinado a\nabricar pannos finos, morins c brins do\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José “Teixeira, brazileiro, mo-\ndico, morador nesta cidade, representado\n\nelo seu procurador o Club Industrial,\nundado c estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas o particulares, deno-\nminado — carroça inodora.

Página 2, O Paiz#

Na tabela abaixo, apresentamos a comparação dos primeiros blocos de texto da página 2 de O Paiz.

Assim como nos resultados obtidos pelo OCR-D, a página dois não apresentou resultados utilizáveis. A imagem digitalizada apresenta muitos ruídos, impossibilitando o reconhecimento do layout e dos caracteres.

Comparemos então as 30 primeiras linhas de cada resultado:

Original

OCR-D Tesseract por

gImageReader Imagem Original

gImageReader Imagem Tratada

?

Voa . »\n\nfaca Tr MS o. “ Alo TT am e RT TT Cod CT MT. os a ht a “ - na .“ E Tudo Tao\n\nORPAt; : SAIR É ADO\n\nPO PE DIC Usou NO [LL 380 BRT RI 106\EDIR O,

A am\n\n\n\nADA RN gado rr : no eo\n\nMN CR ET O SM mo nt Ci RE pg o.\e gre Cro qa Ga To EMT “ 1…\n\nPero Ma de tattoo cr mam at e Cetera REM as — mm E a IO e MO a o CAM mm ri O a ii mm O eU\n\n\n\n\n\n\n\nCORRETO\n\nPSA pio DP é FICAR O SEA RIR RONAN CS 1\n\npf ag gui fr nbr aa car To\Pro vegeta õeo B1 D

revolta: ha nella epilepsias de: desespero.\n\nde angustias\gula n’uma;\ubito nessa\forjados: por\n\nfamia q\pulohro\carnuagem” macia\epiderme, a Vida=\“olhos fus\tima-tormenta:’na:-faude rouca, : d*electrismo “de umraio no dorso— à’g0 proprio co, tampo de chumbo: d\um ferotro que nós\n\nclamores de gacrra, brados:’e’o:seu: grito. como–so estran\suffocação de logrimas mas.\tormenta, pesada de raios,\rica am pista trecho\E - mavioso, suavissimo irrompe,\vós que 8 ferias cêo onde pipillos” do: passaros,\as da injur teios alacres esfuziam.\n\nm que Em muitos dos seus trabalhos a-ir)\sem: QUe

Pagina 1, Boletim de Eugenia#

Original

OCR-D Tesseract por

gImageReader Imagem Original

gImageReader Imagem Tratada

BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nInstituto Brasileiro de Eugenia\n\nJANEIRO DE 1929\nVOL. I – NUM. 1\n\nDirecção e Propriedade\nDR. RENATO KEHL\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO – BRASIL\n\n\nO NOSSO BOLETIM\n\nInstituto Brasileiro de Eugenia\n\nTêm os leitores o primeiro nu-\nmero do Boletim de Eugenia. Ap-\nparece modestamente: pequeno\nformato, poucas páginas. Promette\npouco. Deseja, apenas, auxiliar a\ncampanha em prol da Eugenia en-\ntre os elementos cultos e entre os\nelementos que, embora de mediana\ncultura, desejam, tambem, orientar-\nse sobre o momentoso assumpto.\n\nApresentará, para atender a todos,\npequenos artigos científicos, ao\nlado de outros, de simples vulgari-\nzação. Tudo resumidamente, tudo\nem linguagem simples e clara.

BIOT IM DIE\n\nEDITADO\nem propaganda\ncho\nFuxtituto Eerecmiteiro de Essegenner\n\nMENSAL\n\nJANEIRO DE 19219\n\nVOL. 1— NUM. 1\n\n\n\n\NI\n\nDirecção e Propriedade\nDR. MENVITO KEEL\nRua Smith Vasconcellos, t.) = (Apuas ferreas)\nRito DE JANEIRO — BRASIL\n\nDENÚSIS OROL E TIM\nInstituto Brastleco de Eugentu\n\nTém os leitore o primeiro nu-\nmero do Boletim Eugenia. Ap-\nparece modesta nte: pequeno\nformato, poucas p inas. Promette\npouco. Deseja, ap as, atxtiar a\ncampanha em prol a Eugenia en-\nre os elementos C tos u entre os\nelementos que. em ra de mediuni\ncultura, desejam, ta bem, crentar-\nse sobre o mMemen so assumpto\nApresentara. para aender a todos,\npequenos artigos científicos, ao\nlado de outros, de — ples vulgari-\n«ação. Tudo resum amente, tudo\nem linguages cmpse clara

BOLETIM DE EUGENÍA:-.\n\nJANE\nCB. Pod j— ME EESIO VA\nM ENSAL( 4, de sedan BOGÃC\n\nEDITADO\nem propaganda\ndo\nAustituto EBrasileiro de Eugenia\n\nO NOSSO kOLETIM\n\nInstituto Brasilero de Eugenia\n\nTêm os leitores o primeiro nu-\nmero do Boletim & Eugenta. Ap-\nparece modestamente: pequeno\nformato, poucas pázinas. Promette\npouco. Deseja, apínas, auxiliar a\ncampanha em prol la Eugenia en-\nwe os elementos cultos e entre os\nelementos que, embyra de mediana\ncultura, desejam, tanbem, orientar-\nse sobre o momenbso assumpto\nApresentará, para atender a todos,\npequenos artigos (científicos, ao\nlado de outros, de smples vulgari-\nzação. Tudo resumiamente, tudo\nem linguagem simpls e clara,

BOLETIM DE EUGENÍA-…\n\nM ENSAL(SL dica aecDo\n\nTESÃO\n\nEDITADO\nem propaganda\ndo.\nJustituto Braniteiio de Eugenia\n\nJANEIRO DE 1929\n\nVOL. \n|— NUM. 1\n\nDirsoção e Propriedagyr\nDR. RENATO KEMI\n\nRua Smith Vasconcellos, 63 = (Aguus Ferreas)\nRIO DE JANEIRO — BRASIL\n\n0 NOSSO hOLETIM\n\nInstituto Brasileto de Eugenia\n|\n\n,\n\nTêm os leitores o primeiro nu-\nmero do Boletim & Eugenia. Ap-\nparece modestampnte: pequeno\nformato, poucas pãinas. Promette\npouco. Deseja, apúnas, auxiliar a\ncampanha em prolila Eugenta en-\n\nire os elementos cultos e entre os .\n\nelementos que. embra de mediana\ncultura, desejam, tahbem, orientar-\nse sobre o momenbso assumpto\nApresentará, para atender a todos,\npequenos artigos icientificos, ao\nlado de outros, de Smples vulgari-\nzação. Tudo resumiamente, tudo\nem linguagem simpis e clara.

Pagina 2, Boletim de Eugenia#

Original

OCR-D Tesseract por

gImageReader Imagem Original

gImageReader Imagem Tratada

BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nIustítuto Brasileiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. 1 — NUM. 2\n\nDirecção e Propriedade\nDR. MRENATO KEN\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO — BRASIL\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de differença, eis\ncomo sobre elles se manifestaram dois\nde nossos homens de letras cem maior\nevidencia — Bastos Tigre e Humberto\nde Campos. O primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Corgressos\nque por ahi proliferam, não virá ao\nmundo nem bem nem mal. Acho que\ndose homens de grande talento reu-\nunidos em assembléa fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngeniaes seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\nou as de Kepler descobertas por um\nCongresso de sabios. O segundo,\nem tom sério, declara : «A inutilida-\nde destes ajuntamentos não se a pre-\ncisa pôr em relevo… Installado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, na in-\nconsciencia da sua esterilidade».

BIO TD UR ANITA\n\n- RN TRARENO\nem propaganda\ndo\nPrembiteates BEocemateinte efe Eocespesenes\n\nVE ENESIAR\n\nEAR DE 1991\n\nVOL. |-=- NUM. 2\n\nDirecção e Propriedadê\n\nRun Smith Vasconcellos td (Aguas Ferreas)\nRico Di JANFIRO — NRASIL\n\nInstituto brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto - O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes intensa aos congressos, por\njulgul-os absolutamente negativos.\nCom pouvos dias de dilferença, eis\ncomo sobre clles «e munitestaram aus\nde nossos homens de letras cin muor\nevidencia— Bastos Tigre cv Humberto\nde Campos. O primeiro, se bem que\nem tom joceso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro : «Estou\ncom o publico que dos Cor gressos\nque por ali prolmeram, nie virá «o\nmundo nem bem nem mai. Acho gue\ndoze bomens de grando talento reu-\nnidos em assemblea fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngentues seria capaz de produzir a\nOdyssea omo Inferno ow os Luziadas:\nnem se coticebem as leis de Nuwton\nou as de Kepler descobertas por um\nCongresso de sabios2. O segundo,\nem tom sério, declara * «A inutilida-\nde destes ajuntamentos não se a pre\nvisa pôr em relevo… Instalado o\nCongresso, as vaidades ficam satis-\nleitas. Poa feira se dispersa, como\ntronde destoalhadoa pelo vento, na n-\nconsciencia da sus esterilidade.

BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nIustítuto Brasileiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. |— NUM. 2\n\nDirecção e Propriedade”\nDR. MRENATO KEN\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO — BRASIL\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de dilferença, eis\ncomo sobre elles se manifestaram dois\nde nossos homens de letras cem maior\nevidencia—Bastos Tigre e Humberto\nde Campos. O primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Corgressos\nque por ahi proliferam, não virá «o\nmundo nem bem nem mal. Acho que\ndose homens de grande talento reu-\nunidos em assembléa fazem sempre\n“obra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngeniaes seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\nouas de Kepler descobertas por vm\nCongresso de sabios>. O segundo,\nem tom sério, declara : <A inutilida-\nde destes ajuntamentos não se a pre:\ncisa pôr em relevo… Installado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, na in-\nconsciencia da sua esterilidade»,

“BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nInstituto Mrasiteiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. |— NUM. 2\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de dilferença, cis\ncomo sobre elles se munifestaram dois\nde nossos homens de letras em maior\nevidencia -—Bastos Tigre e Humberto\nde Campos. U primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Co: gressos\nque por ahi proliferam, não virá «o\nmundo nem bem nem mal. Acho que\ndoze homens de grande talento reu-\nuidos em assembléa fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngenises seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\noquas de Kepler descobertas por um\nCongresso de sabios». O segundo,\nem tom sério, declara : <A inutilida-\nde destes ajuntamentos não se a pre-\ncisa pôr em relevo… Instalado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, ua in-\nconsciencia da sua esterilidade»,

Pagina 3, Boletim de Eugenia#

Original

OCR-D Tesseract por

gImageReader Imagem Original

gImageReader Imagem Tratada

Eugenía e procreação\n\nPELO DR. SEBASTIAN RECASENS\n\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espafiola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\nà denominam eugeneia ou eugene; sua\nConstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galton ideado a palavra Eugenic\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico.\n\nOs gregos preoccuparam-se, com\nefeito, de preferencia com o aspecto\nphysico dos recemnascidos, especial-\nmente Esparta, que aspirava unica-\nmente possuir bons soldados. Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um grau ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nna idade adulta.

BUSCA € procreação\n\nPELO DR, SEBASTIAN RECASENS\nDecana da arado ae Musdicina ade Made\n\n(Resumo testo pelo Prot. Luis\nHuerta da conferencia iuau-\ngurai do | curso eugentoou hes-\npeubolo organsido pela «Ga-\nceta dlodica Espanol»).\n\nà Euprena é sciencia nmuto antira.\nSus qrimetras observações app\nFeECem qne poemas doprersas Co nas\nObras gregas «ie Eurigedes, drsto\nphanes, Platão e outros classicos, que\n” denominam eugeneia ou cugene; sua\nconstituição seientitica, porém, efie-\nctuou-se no seculo XIX, tendo o it-\ngles Galtca tlcado à palavra Eugente\npara denominar a scencia que tem\npor objecto à hygiene da raça, tunto\nsob o uspecto phvysico como psvchico.\nUs pregos prevccuparam-se, com\neiteito, de preferencia com o aspecto\nPhysico dus recemnascidos, especial.\nmento Esparta, que aspiriva unica-\nmente possuir bons soldados, Assim,\neram uxaminados e condemnados\ntúdos os que apresentavam alguma\ndelormução physica ou um gran ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nqrad- q seu gercro de vida Dea,\nna idade adulta.

Bugenta e proereação\n\nPELO DR. SEBASTIAN RECASENS\n\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espafiola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\nà denominam eugeneia ou eugene; sua\nConstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galton ideado a palavra Eupgenic\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico,\n\nOs gregos preoccuparam-se, com\nefeito, de preferencia com o aspecto\nPliysico dos recemnascidos, especial.\nmente Esparta, que aspirava unica-\nmente possuir bons soldados, Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um gran ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nna idade adulta.

Eugenia é proercação\n\n, PELO DR. SEBASTIAN RECASENS\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espanola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\na denominam eygeneia ou eugene; sua\nconstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galtou ideade a palavra Eugente\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico.\n\nOs gregos preoccuparan-se, com\neffeito, de preferencia com o aspecto\nPphysico dos recemnascidos, especial.\nmente Esparta, que aspirava unica-\nmente possuir bons soldados. Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um grau ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nsa idade adulta.

Reflexões dos resultados#

No geral, podemos perceber resultados muito positivos com o gImageReader tanto no reconhecimento de layout quanto no reconhecimento de caracteres nas páginas testadas.

Podemos argumentar que o gImageReader é uma ótima opção para OCR quando não temos recursos, tempo, conhecimento para treinar um modelo de OCR, ou quando não temos acesso a um modelo de OCR já treinado.

O programa utiliza o Tesseract, motor de alta qualidade para OCR, o que pode ser visto no nosso exemplo utilizando-o no OCR-D, quando obtivemos resultados muito semelhantes aos obtidos pelo gImageReader.

O gImageReader reúne uma série de recursos para editar as imagens, trabalhar em bloco e corrigir manualmente os resultados do OCR sem precisar utilizar outros programas. Temos acesso às taxas de confiança para cada palavra e podemos exportar os resultados em diversos formatos, inclusive em hocr para ser aberto posteriormente no próprio programa ou em outros que aceitem o formato. Nele são armazenados todos os metadados de cada palavra, linha, bloco, página, etc.