3.2 KiB
Executable File
3.2 KiB
Executable File
🚀 GUIA RÁPIDO - 5 MINUTOS
⚡ SETUP IMEDIATO
1. Instalar (2 min)
cd /media/ealmeida/Dados/Dev/Scripts/scraper/
source .venv/bin/activate # Ativar venv existente
python -m playwright install chromium # Se ainda não instalado
2. Configurar .env (1 min)
cp .env.example .env
nano .env
Mínimo necessário:
# Se NÃO vais usar formatação AI, deixa vazio
OPENROUTER_API_KEY=
# Se NÃO vais scrape Reddit, deixa vazio
REDDIT_CLIENT_ID=
REDDIT_CLIENT_SECRET=
3. Executar (2 min)
Para os teus 30 sites:
# TODOS os sites (exceto Reddit)
python batch_scraper.py --all
# Output: output_md/*.md
Apenas Reddit:
# Requer credenciais em .env
python batch_scraper.py --reddit-only
Tudo junto:
python batch_scraper.py --all --include-reddit
📊 O QUE VAI ACONTECER
[00:00] Iniciando batch...
[00:05] ✓ thehogring.com (15 páginas)
[00:12] ✓ sailrite.com (8 páginas)
[00:20] ✓ thesamba.com/vw/forum (23 páginas)
...
[02:30] Batch concluído: 28/30 sites (93% sucesso)
[02:30] Relatório: batch_report_20251105_143022.json
Output:
output_md/*.md- Ficheiros Markdownbatch_report_*.json- Relatório detalhadobatch_scraper_*.log- Logs completos
🔧 CUSTOMIZAÇÃO RÁPIDA
Filtrar por tipo:
# Apenas WordPress (rápido)
python batch_scraper.py --types wordpress
# Apenas fóruns (lento, muitas páginas)
python batch_scraper.py --types forum
# E-commerce (médio)
python batch_scraper.py --types ecommerce
Adicionar novo site:
Edita sites_config.json:
{
"sites": [
...
{
"name": "Novo Site",
"url": "https://novosite.com",
"type": "wordpress",
"max_depth": 2
}
]
}
⚠️ PROBLEMAS COMUNS
"ModuleNotFoundError: playwright"
pip install -r requirements.txt
python -m playwright install chromium
"Timeout" constante
# Sites lentos = aumentar timeout
# Editar sites_config.json e adicionar:
"request_timeout": 120
"403 Forbidden"
# Anti-bot detetado
# Aumentar delays:
"politeness_delay": [5, 10]
📈 PRÓXIMOS PASSOS
Limpeza (opcional):
python clean_md.py output_md/ output_cleaned/
Formatação AI (opcional, requer API):
python format_content.py
💡 DICAS PRO
-
Testar 1 site primeiro:
# Editar sites_config.json # Deixar apenas 1 site python batch_scraper.py --all -
Executar em background:
nohup python batch_scraper.py --all > execution.log 2>&1 & # Monitora com: tail -f execution.log -
Scraping noturno:
# Agendar para 02:00 echo "0 2 * * * cd /caminho/scraper && .venv/bin/python batch_scraper.py --all" | crontab -
📞 AJUDA IMEDIATA
- Ler
README.mdsecção Troubleshooting - Verificar logs:
tail -f batch_scraper_*.log - Testar manualmente:
python scraper.py(editar URL na linha 489)
Tempo estimado total: 2-4h para 30 sites Taxa de sucesso esperada: 80-90% Output aproximado: 2-5GB de ficheiros Markdown
Boa sorte! 🚀