OJS-Scrape¶

ojs-scrape é um pacote Python e uma ferramenta de linha de comando para coletar metadados estruturados de periódicos hospedados em OJS.

Pacote publicado no PyPI

Instale com:

pip install ojs-scrape

Ver pacote no PyPI

Escopo ético e vínculo institucional

O ojs-scrape é desenvolvido sem fins lucrativos e sem pretensão de acessar dados sigilosos, contornar controles de acesso ou alterar informações nos servidores das instituições.

A ferramenta é produzida no âmbito das pesquisas do Laboratório de Humanidades Digitais da UFBA (LABHDUFBA).

A fonte primária é OAI-PMH. Scraping leve com requests e BeautifulSoup é usado apenas como complemento para páginas de sumário e PDFs públicos.

O que a ferramenta faz¶

coleta metadados Dublin Core via OAI-PMH;
filtra por data de publicação;
filtra por autor;
filtra por sets/seções OAI-PMH;
cruza registros com edições OJS específicas;
exporta JSON, CSV e BibTeX;
baixa PDFs públicos quando disponíveis;
permite testar PDFs por amostragem com --pdf-limit.

Exemplo rápido¶

ojs-scrape "https://periodicos.ufba.br/index.php/afroasia" \
  --from 2024 \
  --until 2025 \
  -o afro_asia_2024_2025

Método¶

OJS já expõe metadados por OAI-PMH. Esse protocolo é gratuito, padronizado e feito para colheita de metadados.

Por isso, o pacote usa OAI-PMH como fonte primária e restringe o scraping leve aos dados complementares que não aparecem no protocolo.

Compatibilidade¶

O pacote não promete funcionar com qualquer periódico OJS.

Formulação segura:

ojs-scrape coleta metadados de periódicos OJS com OAI-PMH público e baixa PDFs públicos quando os artigos usam galleys OJS acessíveis por URL padrão ou detectável.

Para detalhes, consulte Compatibilidade.

Citação, créditos e transparência¶

Se usar o pacote em pesquisa, ensino, desenvolvimento ou análise institucional, consulte Citação.

Agradecimentos, vínculo com o LABHDUFBA e nota de transparência sobre uso de IA estão em Créditos e transparência.

Desenvolvimento¶

O plano público de desenvolvimento está em Roadmap.

Mudanças por versão ficam no CHANGELOG.md do repositório.