pyHDB - Pesquisa, coleta e organização de dados com Python

IM-1256 - Introdução à História Digital

Eric Brasil

2024-10-01

Introdução à pyHDB

  • Ferramenta para pesquisa e coleta de dados na Hemeroteca Digital Brasileira (HDB)
  • Construída para facilitar a extração de dados históricos por meio de web scraping
  • Desenvolvida para aumentar a reprodutibilidade e a organização de pesquisas históricas

A Prática da Pesquisa com a pyHDB

  • Registro metodológico: Criação de logs detalhados das pesquisas
  • Reprodutibilidade: Garantia de que outros pesquisadores possam repetir a pesquisa
  • Análise de metadados: Extração de metadados essenciais das fontes pesquisadas

Prática I: Escrevendo o Código

  • Introdução ao web scraping
  • Ferramentas escolhidas:
    • Python
    • Selenium
  • Compreendendo a estrutura da Hemeroteca Digital Brasileira (HDB)

Prática II: Testando a Ferramenta pyHDB

  • O que a ferramenta faz?
  • Pesquisa em múltiplos jornais
  • Pesquisa em um jornal específico
  • Como faz isso? Python, Selenium, Chrome

Preparando para a Instalação

  1. Instale o Python: https://www.python.org/downloads/
  2. Instale o Chrome: https://www.google.com.br/chrome/
  3. Faça o download do repositório pyHDB: https://github.com/ericbrasiln/pyHDB/

Acesse o repositório e clique em Code

Clique em Download ZIP

Instalação da pyHDB

  1. Descompacte o arquivo baixado no diretório de sua preferência;

  2. Abra o Terminal ou PowerShell e navegue até a pasta do repositório:

    cd caminho/para/pyHDB
  3. Instale as dependências:

    pip install -r src/requirements.txt

Executando a pyHDB

  1. Execute o script para pesquisa em múltiplos jornais:

    python src/pyHDB.py
  2. Execute o script para pesquisa em um jornal específico:

    python src/pyHDB_acervos.py

Prática III: Pesquisando com a pyHDB

  • Pesquisa em múltiplos jornais
  • Pesquisa em um jornal específico
  • Entendendo erros no processo e limites da ferramenta

Analisando os Resultados

  • Geração de arquivos CSV contendo metadados das fontes pesquisadas
  • Relatórios de pesquisa automatizados
  • Download de páginas de jornais para análise posterior

Conclusão

  • Revisão das principais funcionalidades da ferramenta
  • Discussão sobre limitações e possíveis melhorias
  • Aplicações futuras da pyHDB para pesquisas históricas