IM-1256 – Introdução à História Digital
PPGIHD – UFRRJ / IHL - UNILAB
quarta-feira, 8 de outubro de 2025

Parte 1 – OCR (Reconhecimento Óptico de Caracteres)
- Impacto do OCR nas Humanidades Digitais
- Uso de ferramentas gráficas (gImageReader)
- Tesseract OCR via linha de comando
Parte 2 – NLP (Processamento de Linguagem Natural)
- Conceitos e aplicações em História Digital
- Preparação de dados textuais
- Introdução ao spaCy (instalação e comandos básicos)
- Extração de entidades nomeadas (NER) em português
Compreender e aplicar técnicas básicas de Reconhecimento Óptico de Caracteres (OCR) e Processamento de Linguagem Natural (NLP) em contextos de pesquisa histórica, reconhecendo seus impactos metodológicos e epistemológicos nas Humanidades Digitais.
📦 Repositórios e Ferramentas
Tutoriais
Esta parte da oficina é baseada na pesquisa de pós-doutorado de Eric Brasil, desenvolvida entre outubro de 2022 e outubro de 2023 no Laboratório de Humanidades Digitais (Lab_HD) do Instituto de História Contemporânea (IHC/NOVA FCSH – Universidade NOVA de Lisboa), sob supervisão do Prof. Dr. Daniel Alves.
O projeto integrou o IN2PAST — Laboratório Associado para a Investigação e Inovação em Património, Artes, Sustentabilidade e Território.
HEMDIG(pt) — Métodos, ferramentas e hemerotecas digitais em português
O projeto analisa o processo de selecionar, recolher e organizar fontes primárias em ambientes digitais e propõe um framework metodológico para pesquisas em história digital com periódicos.
🔗 Acesse: ericbrasil.com.br/hemdig-framework
Essa etapa reúne documentação, testes e tutoriais sobre ferramentas de OCR aplicadas a jornais históricos em língua portuguesa.
Avaliamos:
OCR (Optical Character Recognition) é a tecnologia que converte imagens de texto (digitalizações, fotos ou PDFs) em texto editável e pesquisável.
Em termos simples:
O OCR não é apenas uma etapa técnica,
mas um momento metodológico da pesquisa digital.
Ele define o que é visível, pesquisável e, portanto, historicamente interpretável.
O OCR não é perfeito — especialmente com documentos históricos.
Principais desafios:
Solução parcial:
Combinar ferramentas automáticas com revisão humana e aprendizado de máquina (modelos treinados em fontes históricas).
Interface gráfica que usa o Tesseract OCR.
Ferramenta livre e multiplataforma mantida pelo Google.
Suporta mais de 100 idiomas, incluindo o português.
Instalação (Linux/Ubuntu):
📄 Uso básico:
Saída → cria resultado.txt com o texto extraído.
Pré-processamento da imagem:
convert img.jpg -colorspace Gray)convert img.jpg -contrast)Quanto melhor a imagem, melhor o OCR.
NLP (Natural Language Processing) é o campo da ciência computacional que busca ensinar máquinas a ler, compreender e gerar linguagem humana.
Por que o NLP importa para historiadores?
📚 Termo-chave: “Leitura Distante” (Franco Moretti)
1️⃣ OCR: converte imagens em texto
2️⃣ Pré-processamento textual (limpeza, tokenização)
3️⃣ Análise linguística (POS tagging, NER, dependências sintáticas)
4️⃣ Interpretação e visualização de resultados
📊 Exemplo de pipeline:
Imagem (PDF) → Texto OCR → spaCy → Análise → Gráficos
Biblioteca em Python projetada para análise linguística robusta e rápida.
Verifique se o modelo foi instalado corretamente:
📄 Saída esperada:
Em - ADP - case
15 - NUM - nummod
novembro - NOUN - obl
...
🎯 O NER permite extrair nomes de pessoas, lugares, datas, instituições etc.
📋 Saída:
15 de novembro de 1889 DATA
Deodoro da Fonseca PESSOA
República do Brasil LOCAL
Rio de Janeiro LOCAL
O spaCy possui um visualizador embutido para NER:
🧹 Antes da análise, é essencial:
⚠️ NLP em português enfrenta dificuldades específicas:
Como o NLP pode transformar a forma como lemos o passado?

IM-1256 – Introdução à História Digital | ericbrasil.com.br/hd-ufrrj