13.1. Testando o gImageReader#
O gImageReader é um programa front-end que aplica o tesseract-ocr para reconhecimento de caracteres em imagens e PDFs. Ele é uma interface gráfica criada com GTK/QT[1] por Sandro Mani com licença GNU GPL v3.
Atualmente (versão 3.4.1) o programa está disponível para Windows e Linux e 100% traduzido para 6 idiomas incluindo o português (brasileiro).
O gImageReader possui características muito úteis para a pesquisa com jornais digitalizados. Segundo a documentação:
Import PDF documents and images from disk, scanning devices, clipboard and screenshots
Process multiple images and documents in one go
Manual or automatic recognition area definition
Recognize to plain text or to hOCR documents
Recognized text displayed directly next to the image
Post-process the recognized text, including spellchecking
Generate PDF documents from hOCR documents
Instalação#
Na página de documentação do gImageReader encontramos a lista de distribuições Linux que possuem pacotes para instalação, assim como o link para download da versão para Windows e o link para download do código fonte.
Aqui, vamos instalar a versão para Ubuntu 22.04 LTS (e derivados) e em seguida, veremos um vídeo tutorial de instalação e uso para Windows 10.
Ubuntu 22.04#
sudo add-apt-repository ppa:sandromani/gimagereader #adiciona o repositório
sudo apt update # atualiza a lista de pacotes
sudo apt install gimagereader-gtk # instala o gimagereader
Após a instalação, é só procurar pelo programa no menu de aplicativos do seu sistema.
Tesseract-ocr#
Caso você ainda não tenha instalado o Tesseract, você receberá uma mensagem do programa informando:
Nenhum idioma do Tesseract disponível para uso. O reconhecimento de caracteres não vai funcionar.
Então podemos instalar o tesseract e dependências com o comando:
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev
Para saber se a instalação foi concluída corretamente, execute, em seu terminal, o comando tesseract --version
para saber a versão instalada. Em seguida execute o comando tesseract --list-langs
para saber quais idiomas estão disponíveis.
tesseract --list-langs
O resultado dever ser algo parecido com isso:
List of available languages (2):
eng
osd
Para instalar o idioma português, execute o comando:
sudo apt install tesseract-ocr-por
Após a instalação do tesseract, o gImageReader iniciará sem o aviso e podemos utilizá-lo normalmente.
Para saber mais sobre o processo de instalação do tesseract, acesse o link.
Windows 10#
O processo de instalação do gImageReader no Windows é simples, e um tutorial detalhado pode ser visto no vídeo abaixo:
Utilizando o gImageReader#
O vídeo tutorial mostra as funções básicas do gImageReader[2]. Para nossa pesquisa, estamos interessados em comparar os resultados do reconhecimento de layouts e de caracteres produzido por esse programa com os resultados obtidos com OCR-D e Kraken.
Resultados#
Inserimos no programa as 5 páginas de exemplo utilizadas anteriormente com OCR-D e Kraken. Também inserimos as versões das imagens que haviam sido pré-processadas com o OCR-D (binarização, normalização, redução de ruídos e de inclinação).
Reconhecimento de layouts#
O reconhecimento foi realizado com a opção hocr e a saída foi salva como gir_hocr_output.html
e pode ser acessada aqui. Também exportamos o resultado de cada página como um arquivo de texto, que podem ser acessados aqui.
Além do reconhecimento utilizando o método hocr, realizamos o reconhecimento de layout automático (recurso possível na opção de reconhecimento de texto simples).
Ao analisarmos o resultado final, percebemos que os resultados foram semelhantes aos obtidos com o OCR-D. E que na comparação dos resultados do reconhecimento de layout automático entre as páginas originais e tratadas previamente pelo OCR-D, notamos que ou os resultados foram similares ou melhores com as imagens originais.
Vejamos as imagens de cada exemplo (a primeira imagem é a original e a segunda é a imagem tratada pelo OCR-D):
O Pais, p.1#
O Pais, p.2#
Boletim de Eugenia, p.1#
Boletim de Eugenia, p.2#
Boletim de Eugenia, p.3#
Reconhecimento de texto#
Exportamos os resultados do reconhecimento de texto com o método hocr para ficheiros txt de cada página utilizada como exemplo. Os ficheiros estão organizados no diretório outuputs
.
Vejamos a comparação dos textos obtidos com OCR-D (utilizando o tesseracr por
), gImageReader com imagem original e gImageReader com imagem tratada.
Página 1, O Paiz#
Na tabela abaixo, apresentamos a comparação dos primeiros blocos de texto da página 1 de O Paiz.
Original |
OCR-D Tesseract por |
gImageReader Imagem Original |
gImageReader Imagem Tratada |
---|---|---|---|
ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 a\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nprocesso de sua invenção, destinado a\nfabricar pannos finos, morins e brins de\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José Teixeira, brazileiro, me-\ndico, morador nesta cidade, representado\n\npelo seu procurador o Club Industrial,\nfundado e estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas e particulares, deno-\nminado — carroça inodora. |
RC CISCO E\n\nPor decreto de 8 de Janeiro ultimo\nconccdeu-se a patente de n. dhj q\nAugusto Cambrais, portu ez, indus-\ntriol, residente nesta ci ade, para 0\nrocesso de sua invenção, destinado q\nubricar pannos finos, morins ce brins de\nalcodão alvejados,\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria no Dr. Gui-\nlherme José Teixeira, brazileiro, mo:\ndico, morador nesta cidade re resentido\nelo seu procurador o Club ndustrial,\nundado 6 estabelecido tambem nesta\ncidade, para transporte do lixo dus ha-\nbitações publicas 6 particulares, deno-\nminado — carroça inodora. |
ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 à\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nrocesso de sua invenção, destinado a\nabricar pannos finos, morins c brins do\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José “Teixeira, brazileiro, mo-\ndico, morador nesta cidade, representado\n\nelo seu procurador o Club Industrial,\nundado c estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas o particulares, deno-\nminado — carroça inodora. |
ACTOS OFFICIAES\n\nPor decreto de 8 de Janeiro ultimo\nconcedeu-se a patente de n. 465 à\nAugusto Cambraia, portuguez, indus-\ntrial, residente nesta cidade, para o\n\nrocesso de sua invenção, destinado a\nabricar pannos finos, morins c brins do\nalgodão alvejados.\n\nEm data de 23 de Abril ultimo con-\ncedeu-se garantia provisoria ao Dr. Gui-\nlherme José “Teixeira, brazileiro, mo-\ndico, morador nesta cidade, representado\n\nelo seu procurador o Club Industrial,\nundado c estabelecido tambem nesta\ncidade, para transporte do lixo das ha-\nbitações publicas o particulares, deno-\nminado — carroça inodora. |
Página 2, O Paiz#
Na tabela abaixo, apresentamos a comparação dos primeiros blocos de texto da página 2 de O Paiz.
Assim como nos resultados obtidos pelo OCR-D, a página dois não apresentou resultados utilizáveis. A imagem digitalizada apresenta muitos ruídos, impossibilitando o reconhecimento do layout e dos caracteres.
Comparemos então as 30 primeiras linhas de cada resultado:
Original |
OCR-D Tesseract por |
gImageReader Imagem Original |
gImageReader Imagem Tratada |
---|---|---|---|
? |
Voa . »\n\nfaca Tr MS o. “ Alo TT am e RT TT Cod CT MT. os a ht a “ - na .“ E Tudo Tao\n\nORPAt; : SAIR É ADO\n\nPO PE DIC Usou NO [LL 380 BRT RI 106\EDIR O, |
A am\n\n\n\nADA RN gado rr : no eo\n\nMN CR ET O SM mo nt Ci RE pg o.\e gre Cro qa Ga To EMT “ 1…\n\nPero Ma de tattoo cr mam at e Cetera REM as — mm E a IO e MO a o CAM mm ri O a ii mm O eU\n\n\n\n\n\n\n\nCORRETO\n\nPSA pio DP é FICAR O SEA RIR RONAN CS 1\n\npf ag gui fr nbr aa car To\Pro vegeta õeo B1 D |
revolta: ha nella epilepsias de: desespero.\n\nde angustias\gula n’uma;\ubito nessa\forjados: por\n\nfamia q\pulohro\carnuagem” macia\epiderme, a Vida=\“olhos fus\tima-tormenta:’na:-faude rouca, : d*electrismo “de umraio no dorso— à’g0 proprio co, tampo de chumbo: d\um ferotro que nós\n\nclamores de gacrra, brados:’e’o:seu: grito. como–so estran\suffocação de logrimas mas.\tormenta, pesada de raios,\rica am pista trecho\E - mavioso, suavissimo irrompe,\vós que 8 ferias cêo onde pipillos” do: passaros,\as da injur teios alacres esfuziam.\n\nm que Em muitos dos seus trabalhos a-ir)\sem: QUe |
Pagina 1, Boletim de Eugenia#
Original |
OCR-D Tesseract por |
gImageReader Imagem Original |
gImageReader Imagem Tratada |
---|---|---|---|
BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nInstituto Brasileiro de Eugenia\n\nJANEIRO DE 1929\nVOL. I – NUM. 1\n\nDirecção e Propriedade\nDR. RENATO KEHL\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO – BRASIL\n\n\nO NOSSO BOLETIM\n\nInstituto Brasileiro de Eugenia\n\nTêm os leitores o primeiro nu-\nmero do Boletim de Eugenia. Ap-\nparece modestamente: pequeno\nformato, poucas páginas. Promette\npouco. Deseja, apenas, auxiliar a\ncampanha em prol da Eugenia en-\ntre os elementos cultos e entre os\nelementos que, embora de mediana\ncultura, desejam, tambem, orientar-\nse sobre o momentoso assumpto.\n\nApresentará, para atender a todos,\npequenos artigos científicos, ao\nlado de outros, de simples vulgari-\nzação. Tudo resumidamente, tudo\nem linguagem simples e clara. |
BIOT IM DIE\n\nEDITADO\nem propaganda\ncho\nFuxtituto Eerecmiteiro de Essegenner\n\nMENSAL\n\nJANEIRO DE 19219\n\nVOL. 1— NUM. 1\n\n\n\n\NI\n\nDirecção e Propriedade\nDR. MENVITO KEEL\nRua Smith Vasconcellos, t.) = (Apuas ferreas)\nRito DE JANEIRO — BRASIL\n\nDENÚSIS OROL E TIM\nInstituto Brastleco de Eugentu\n\nTém os leitore o primeiro nu-\nmero do Boletim Eugenia. Ap-\nparece modesta nte: pequeno\nformato, poucas p inas. Promette\npouco. Deseja, ap as, atxtiar a\ncampanha em prol a Eugenia en-\nre os elementos C tos u entre os\nelementos que. em ra de mediuni\ncultura, desejam, ta bem, crentar-\nse sobre o mMemen so assumpto\nApresentara. para aender a todos,\npequenos artigos científicos, ao\nlado de outros, de — ples vulgari-\n«ação. Tudo resum amente, tudo\nem linguages cmpse clara |
BOLETIM DE EUGENÍA:-.\n\nJANE\nCB. Pod j— ME EESIO VA\nM ENSAL( 4, de sedan BOGÃC\n\nEDITADO\nem propaganda\ndo\nAustituto EBrasileiro de Eugenia\n\nO NOSSO kOLETIM\n\nInstituto Brasilero de Eugenia\n\nTêm os leitores o primeiro nu-\nmero do Boletim & Eugenta. Ap-\nparece modestamente: pequeno\nformato, poucas pázinas. Promette\npouco. Deseja, apínas, auxiliar a\ncampanha em prol la Eugenia en-\nwe os elementos cultos e entre os\nelementos que, embyra de mediana\ncultura, desejam, tanbem, orientar-\nse sobre o momenbso assumpto\nApresentará, para atender a todos,\npequenos artigos (científicos, ao\nlado de outros, de smples vulgari-\nzação. Tudo resumiamente, tudo\nem linguagem simpls e clara, |
BOLETIM DE EUGENÍA-…\n\nM ENSAL(SL dica aecDo\n\nTESÃO\n\nEDITADO\nem propaganda\ndo.\nJustituto Braniteiio de Eugenia\n\nJANEIRO DE 1929\n\nVOL. \n|— NUM. 1\n\nDirsoção e Propriedagyr\nDR. RENATO KEMI\n\nRua Smith Vasconcellos, 63 = (Aguus Ferreas)\nRIO DE JANEIRO — BRASIL\n\n0 NOSSO hOLETIM\n\nInstituto Brasileto de Eugenia\n|\n\n,\n\nTêm os leitores o primeiro nu-\nmero do Boletim & Eugenia. Ap-\nparece modestampnte: pequeno\nformato, poucas pãinas. Promette\npouco. Deseja, apúnas, auxiliar a\ncampanha em prolila Eugenta en-\n\nire os elementos cultos e entre os .\n\nelementos que. embra de mediana\ncultura, desejam, tahbem, orientar-\nse sobre o momenbso assumpto\nApresentará, para atender a todos,\npequenos artigos icientificos, ao\nlado de outros, de Smples vulgari-\nzação. Tudo resumiamente, tudo\nem linguagem simpis e clara. |
Pagina 2, Boletim de Eugenia#
Original |
OCR-D Tesseract por |
gImageReader Imagem Original |
gImageReader Imagem Tratada |
---|---|---|---|
BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nIustítuto Brasileiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. 1 — NUM. 2\n\nDirecção e Propriedade\nDR. MRENATO KEN\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO — BRASIL\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de differença, eis\ncomo sobre elles se manifestaram dois\nde nossos homens de letras cem maior\nevidencia — Bastos Tigre e Humberto\nde Campos. O primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Corgressos\nque por ahi proliferam, não virá ao\nmundo nem bem nem mal. Acho que\ndose homens de grande talento reu-\nunidos em assembléa fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngeniaes seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\nou as de Kepler descobertas por um\nCongresso de sabios. O segundo,\nem tom sério, declara : «A inutilida-\nde destes ajuntamentos não se a pre-\ncisa pôr em relevo… Installado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, na in-\nconsciencia da sua esterilidade». |
BIO TD UR ANITA\n\n- RN TRARENO\nem propaganda\ndo\nPrembiteates BEocemateinte efe Eocespesenes\n\nVE ENESIAR\n\nEAR DE 1991\n\nVOL. |-=- NUM. 2\n\nDirecção e Propriedadê\n\nRun Smith Vasconcellos td (Aguas Ferreas)\nRico Di JANFIRO — NRASIL\n\nInstituto brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto - O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes intensa aos congressos, por\njulgul-os absolutamente negativos.\nCom pouvos dias de dilferença, eis\ncomo sobre clles «e munitestaram aus\nde nossos homens de letras cin muor\nevidencia— Bastos Tigre cv Humberto\nde Campos. O primeiro, se bem que\nem tom joceso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro : «Estou\ncom o publico que dos Cor gressos\nque por ali prolmeram, nie virá «o\nmundo nem bem nem mai. Acho gue\ndoze bomens de grando talento reu-\nnidos em assemblea fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngentues seria capaz de produzir a\nOdyssea omo Inferno ow os Luziadas:\nnem se coticebem as leis de Nuwton\nou as de Kepler descobertas por um\nCongresso de sabios2. O segundo,\nem tom sério, declara * «A inutilida-\nde destes ajuntamentos não se a pre\nvisa pôr em relevo… Instalado o\nCongresso, as vaidades ficam satis-\nleitas. Poa feira se dispersa, como\ntronde destoalhadoa pelo vento, na n-\nconsciencia da sus esterilidade. |
BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nIustítuto Brasileiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. |— NUM. 2\n\nDirecção e Propriedade”\nDR. MRENATO KEN\nRua Smith Vasconcellos, 63 = (Aguas Ferreas)\nRIO DE JANEIRO — BRASIL\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de dilferença, eis\ncomo sobre elles se manifestaram dois\nde nossos homens de letras cem maior\nevidencia—Bastos Tigre e Humberto\nde Campos. O primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Corgressos\nque por ahi proliferam, não virá «o\nmundo nem bem nem mal. Acho que\ndose homens de grande talento reu-\nunidos em assembléa fazem sempre\n“obra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngeniaes seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\nouas de Kepler descobertas por vm\nCongresso de sabios>. O segundo,\nem tom sério, declara : <A inutilida-\nde destes ajuntamentos não se a pre:\ncisa pôr em relevo… Installado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, na in-\nconsciencia da sua esterilidade», |
“BOLETIM DE EUGENÍA\n\nMENSAL\n\nEDITADO\nem propaganda\ndo\nInstituto Mrasiteiro de Eugenia\n\nFEVEREIRO DE 1929\n\nVOL. |— NUM. 2\n\nInstituto Brasileiro de Eugenia\n\nLigeiro esboço — Fins do Instituto — O que é necessario fazer\n\nHa uma grande corrente de intel-\nlectuaes infensa aos congressos, por\njulgal-os absolutamente negativos.\nCom poucos dias de dilferença, cis\ncomo sobre elles se munifestaram dois\nde nossos homens de letras em maior\nevidencia -—Bastos Tigre e Humberto\nde Campos. U primeiro, se bem que\nem tom jocoso, disse numa «Macro-\nlandia» publicada no «Diario de São\nPaulo» de 17 de janeiro: «Estou\ncom o publico que dos Co: gressos\nque por ahi proliferam, não virá «o\nmundo nem bem nem mal. Acho que\ndoze homens de grande talento reu-\nuidos em assembléa fazem sempre\nobra de uma duzia de cretinos ! A\nobra util e grande tem de ser indivi-\ndual. Nenhuma Academia de poetas\ngenises seria capaz de produzir a\nOdyssea ou o Inferno ou os Luziadas;\nnem se concebem as leis de Newton\noquas de Kepler descobertas por um\nCongresso de sabios». O segundo,\nem tom sério, declara : <A inutilida-\nde destes ajuntamentos não se a pre-\ncisa pôr em relevo… Instalado o\nCongresso, as vaidades ficam satis-\nfeitas. E a feira se dispersa, como\nfronde desfolhada pelo vento, ua in-\nconsciencia da sua esterilidade», |
Pagina 3, Boletim de Eugenia#
Original |
OCR-D Tesseract por |
gImageReader Imagem Original |
gImageReader Imagem Tratada |
---|---|---|---|
Eugenía e procreação\n\nPELO DR. SEBASTIAN RECASENS\n\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espafiola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\nà denominam eugeneia ou eugene; sua\nConstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galton ideado a palavra Eugenic\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico.\n\nOs gregos preoccuparam-se, com\nefeito, de preferencia com o aspecto\nphysico dos recemnascidos, especial-\nmente Esparta, que aspirava unica-\nmente possuir bons soldados. Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um grau ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nna idade adulta. |
BUSCA € procreação\n\nPELO DR, SEBASTIAN RECASENS\nDecana da arado ae Musdicina ade Made\n\n(Resumo testo pelo Prot. Luis\nHuerta da conferencia iuau-\ngurai do | curso eugentoou hes-\npeubolo organsido pela «Ga-\nceta dlodica Espanol»).\n\nà Euprena é sciencia nmuto antira.\nSus qrimetras observações app\nFeECem qne poemas doprersas Co nas\nObras gregas «ie Eurigedes, drsto\nphanes, Platão e outros classicos, que\n” denominam eugeneia ou cugene; sua\nconstituição seientitica, porém, efie-\nctuou-se no seculo XIX, tendo o it-\ngles Galtca tlcado à palavra Eugente\npara denominar a scencia que tem\npor objecto à hygiene da raça, tunto\nsob o uspecto phvysico como psvchico.\nUs pregos prevccuparam-se, com\neiteito, de preferencia com o aspecto\nPhysico dus recemnascidos, especial.\nmento Esparta, que aspiriva unica-\nmente possuir bons soldados, Assim,\neram uxaminados e condemnados\ntúdos os que apresentavam alguma\ndelormução physica ou um gran ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nqrad- q seu gercro de vida Dea,\nna idade adulta. |
Bugenta e proereação\n\nPELO DR. SEBASTIAN RECASENS\n\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espafiola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\nà denominam eugeneia ou eugene; sua\nConstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galton ideado a palavra Eupgenic\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico,\n\nOs gregos preoccuparam-se, com\nefeito, de preferencia com o aspecto\nPliysico dos recemnascidos, especial.\nmente Esparta, que aspirava unica-\nmente possuir bons soldados, Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um gran ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nna idade adulta. |
Eugenia é proercação\n\n, PELO DR. SEBASTIAN RECASENS\nDecano da Faculdade de Medicina de Madrid\n\n(Resumo feito pelo Prof. Luis\nHuerta da conferencia inau-\ngural do 1º curso eugenico hes-\npanhol, organizado pela «Ga-\nceta Medica Espanola»).\n\nA Eugenia é sciencia muito antiga.\n\nSuas primeiras observações appa-\nrecem nos poemas homericos e nas\nobras gregas de Euripedes, Aristo-\nphanes, Platão e outros classicos, que\na denominam eygeneia ou eugene; sua\nconstituição scientifica, porém, effe-\nctuou-se no seculo XIX, tendo o in-\nglez Galtou ideade a palavra Eugente\npara denominar a sciencia que tem\npor objecto a hygiene da raça, tanto\nsob o aspecto physico como psychico.\n\nOs gregos preoccuparan-se, com\neffeito, de preferencia com o aspecto\nPphysico dos recemnascidos, especial.\nmente Esparta, que aspirava unica-\nmente possuir bons soldados. Assim,\neram examinados e condemnados\ntodos os que apresentavam alguma\ndeformação physica ou um grau ex-\ntremo de debilidade que os impedisse\nde alcançar um desenvolvimento ade-\nquado a seu genero de vida béllica,\nsa idade adulta. |
Reflexões dos resultados#
No geral, podemos perceber resultados muito positivos com o gImageReader tanto no reconhecimento de layout quanto no reconhecimento de caracteres nas páginas testadas.
Podemos argumentar que o gImageReader é uma ótima opção para OCR quando não temos recursos, tempo, conhecimento para treinar um modelo de OCR, ou quando não temos acesso a um modelo de OCR já treinado.
O programa utiliza o Tesseract, motor de alta qualidade para OCR, o que pode ser visto no nosso exemplo utilizando-o no OCR-D, quando obtivemos resultados muito semelhantes aos obtidos pelo gImageReader.
O gImageReader reúne uma série de recursos para editar as imagens, trabalhar em bloco e corrigir manualmente os resultados do OCR sem precisar utilizar outros programas. Temos acesso às taxas de confiança para cada palavra e podemos exportar os resultados em diversos formatos, inclusive em hocr para ser aberto posteriormente no próprio programa ou em outros que aceitem o formato. Nele são armazenados todos os metadados de cada palavra, linha, bloco, página, etc.