Roadmap¶

Este roadmap registra o plano público de desenvolvimento do ojs-scrape.

Ele substitui logs internos de sessão e planos de trabalho que serviram à fase inicial do projeto.

Status atual¶

ojs-scrape é um pacote Python e uma ferramenta CLI em estágio alpha.

O pacote já permite:

coletar metadados de periódicos OJS com OAI-PMH público;
filtrar artigos por data de publicação, autor, set/seção e IDs de edição OJS;
exportar dados em JSON, CSV e BibTeX;
enriquecer registros com dados de TOC quando necessário;
baixar PDFs públicos quando os galleys OJS são acessíveis;
testar downloads de PDF com amostragem limitada por --pdf-limit;
validar o comportamento com testes unitários, integração marcada e quality gates locais.

A versão atual não promete compatibilidade universal com qualquer instalação OJS.

Objetivo: publicar uma versão alpha usável e citável.

Tarefas principais:

Critério de conclusão:

Objetivo: corrigir problemas encontrados por primeiros usuários e por novos testes com periódicos reais.

Possíveis frentes:

corrigir bugs de instalação e dependências;
ajustar documentação a partir de feedback de uso;
ampliar testes de regressão para OJS reais que apresentem variantes de XML, TOC ou galley;
melhorar mensagens de erro da CLI;
documentar melhor falhas de PDF e caminhos de retomada;
revisar exportação BibTeX com casos de acentuação, subtítulos e nomes compostos.

Objetivo: aumentar a cobertura de instalações OJS com configurações diferentes.

Possíveis frentes:

melhorar descoberta automática de endpoint OAI-PMH;
ampliar padrões de parsing de TOC;
ampliar padrões de detecção de galley PDF;
melhorar identificação de seção, páginas e edição;
oferecer relatório estruturado de falhas de PDF;
adicionar mais fixtures HTML/XML derivadas de casos reais, sem depender de rede nos testes unitários;
melhorar a UX de retomada de downloads longos.

Possibilidades ainda não priorizadas:

suporte opcional a outros formatos OAI-PMH quando disponíveis, além de oai_dc;
relatórios resumidos em Markdown ou HTML;
integração com fluxos de revisão bibliográfica e bases de pesquisa;
comandos auxiliares para diagnóstico de um periódico OJS antes da coleta;
empacotamento de exemplos reprodutíveis para ensino e oficinas.

O projeto não pretende:

acessar dados privados;
contornar login, paywall, embargo, CAPTCHA ou bloqueios institucionais;
alterar dados em servidores de periódicos;
usar scraping pesado para metadados já expostos por OAI-PMH;
substituir curadoria humana, revisão bibliográfica ou julgamento acadêmico;
garantir download de PDFs quando a revista não oferece galleys públicos acessíveis.

A regra de método permanece:

usar OAI-PMH como fonte primária para metadados;
usar scraping leve apenas como complemento para dados que o protocolo não expõe diretamente;
transformar falhas reais em testes de regressão;
distinguir fato verificado, inferência e limite conhecido na documentação.