PDFs¶
O download de PDFs é opcional.
Metadados são mais confiáveis que PDFs, porque OAI-PMH é protocolo padronizado. PDFs dependem da configuração local da revista, dos galleys e das permissões de acesso.
Teste por amostragem¶
Antes de baixar uma coleção inteira, teste poucos PDFs:
ojs-scrape "https://rbs.sbsociologia.com.br/rbs/index" \
--from 2026 \
--until 2026-05-30 \
--pdf \
--pdf-limit 2 \
--pdf-dir pdfs_teste/ \
-o rbs_2026.json
Se funcionar, rode sem --pdf-limit.
Lote completo¶
ojs-scrape "https://rbs.sbsociologia.com.br/rbs/index" \
--from 2020 \
--until 2026-05-30 \
--pdf \
--pdf-dir pdfs/ \
-o rbs_2020_2026.json
Como o pacote encontra PDFs¶
A sequência de tentativas inclui:
- URL direta do artigo;
- link de galley na página do artigo;
- conversão de
/article/view/{id}/{galley}para/article/download/{id}/{galley}; - priorização de galleys oficiais sobre PDFs externos citados em referências.
Galleys podem ser:
- numéricos, como
579; - textuais, como
pdf_53; - faixas ou rótulos, como
759-775.
Falhas esperadas¶
O download pode falhar quando:
- o artigo não tem PDF;
- o PDF exige login;
- o PDF está sob embargo;
- o link está quebrado;
- o tema/plugin OJS altera o padrão dos galleys;
- há bloqueio por IP, CAPTCHA, Cloudflare ou rate limit agressivo.