Pular para conteúdo

OJS-Scrape

PyPI version Python versions License DOI

ojs-scrape é um pacote Python e uma ferramenta de linha de comando para coletar metadados estruturados de periódicos hospedados em OJS.

Pacote publicado no PyPI

Instale com:

pip install ojs-scrape

Ver pacote no PyPI

Escopo ético e vínculo institucional

O ojs-scrape é desenvolvido sem fins lucrativos e sem pretensão de acessar dados sigilosos, contornar controles de acesso ou alterar informações nos servidores das instituições.

A ferramenta é produzida no âmbito das pesquisas do Laboratório de Humanidades Digitais da UFBA (LABHDUFBA).

A fonte primária é OAI-PMH. Scraping leve com requests e BeautifulSoup é usado apenas como complemento para páginas de sumário e PDFs públicos.

O que a ferramenta faz

  • coleta metadados Dublin Core via OAI-PMH;
  • filtra por data de publicação;
  • filtra por autor;
  • filtra por sets/seções OAI-PMH;
  • cruza registros com edições OJS específicas;
  • exporta JSON, CSV e BibTeX;
  • baixa PDFs públicos quando disponíveis;
  • permite testar PDFs por amostragem com --pdf-limit.

Exemplo rápido

ojs-scrape "https://periodicos.ufba.br/index.php/afroasia" \
  --from 2024 \
  --until 2025 \
  -o afro_asia_2024_2025

Método

OJS já expõe metadados por OAI-PMH. Esse protocolo é gratuito, padronizado e feito para colheita de metadados.

Por isso, o pacote usa OAI-PMH como fonte primária e restringe o scraping leve aos dados complementares que não aparecem no protocolo.

Compatibilidade

O pacote não promete funcionar com qualquer periódico OJS.

Formulação segura:

ojs-scrape coleta metadados de periódicos OJS com OAI-PMH público e baixa PDFs públicos quando os artigos usam galleys OJS acessíveis por URL padrão ou detectável.

Para detalhes, consulte Compatibilidade.

Citação, créditos e transparência

Se usar o pacote em pesquisa, ensino, desenvolvimento ou análise institucional, consulte Citação.

Agradecimentos, vínculo com o LABHDUFBA e nota de transparência sobre uso de IA estão em Créditos e transparência.

Desenvolvimento

O plano público de desenvolvimento está em Roadmap.

Mudanças por versão ficam no CHANGELOG.md do repositório.