Files
scripts/scraper/QUICKSTART.md

3.2 KiB
Executable File

🚀 GUIA RÁPIDO - 5 MINUTOS

SETUP IMEDIATO

1. Instalar (2 min)

cd /media/ealmeida/Dados/Dev/Scripts/scraper/
source .venv/bin/activate  # Ativar venv existente
python -m playwright install chromium  # Se ainda não instalado

2. Configurar .env (1 min)

cp .env.example .env
nano .env

Mínimo necessário:

# Se NÃO vais usar formatação AI, deixa vazio
OPENROUTER_API_KEY=

# Se NÃO vais scrape Reddit, deixa vazio
REDDIT_CLIENT_ID=
REDDIT_CLIENT_SECRET=

3. Executar (2 min)

Para os teus 30 sites:

# TODOS os sites (exceto Reddit)
python batch_scraper.py --all

# Output: output_md/*.md

Apenas Reddit:

# Requer credenciais em .env
python batch_scraper.py --reddit-only

Tudo junto:

python batch_scraper.py --all --include-reddit

📊 O QUE VAI ACONTECER

[00:00] Iniciando batch...
[00:05] ✓ thehogring.com (15 páginas)
[00:12] ✓ sailrite.com (8 páginas)
[00:20] ✓ thesamba.com/vw/forum (23 páginas)
...
[02:30] Batch concluído: 28/30 sites (93% sucesso)
[02:30] Relatório: batch_report_20251105_143022.json

Output:

  • output_md/*.md - Ficheiros Markdown
  • batch_report_*.json - Relatório detalhado
  • batch_scraper_*.log - Logs completos

🔧 CUSTOMIZAÇÃO RÁPIDA

Filtrar por tipo:

# Apenas WordPress (rápido)
python batch_scraper.py --types wordpress

# Apenas fóruns (lento, muitas páginas)
python batch_scraper.py --types forum

# E-commerce (médio)
python batch_scraper.py --types ecommerce

Adicionar novo site:

Edita sites_config.json:

{
  "sites": [
    ...
    {
      "name": "Novo Site",
      "url": "https://novosite.com",
      "type": "wordpress",
      "max_depth": 2
    }
  ]
}

⚠️ PROBLEMAS COMUNS

"ModuleNotFoundError: playwright"

pip install -r requirements.txt
python -m playwright install chromium

"Timeout" constante

# Sites lentos = aumentar timeout
# Editar sites_config.json e adicionar:
"request_timeout": 120

"403 Forbidden"

# Anti-bot detetado
# Aumentar delays:
"politeness_delay": [5, 10]

📈 PRÓXIMOS PASSOS

Limpeza (opcional):

python clean_md.py output_md/ output_cleaned/

Formatação AI (opcional, requer API):

python format_content.py

💡 DICAS PRO

  1. Testar 1 site primeiro:

    # Editar sites_config.json
    # Deixar apenas 1 site
    python batch_scraper.py --all
    
  2. Executar em background:

    nohup python batch_scraper.py --all > execution.log 2>&1 &
    # Monitora com: tail -f execution.log
    
  3. Scraping noturno:

    # Agendar para 02:00
    echo "0 2 * * * cd /caminho/scraper && .venv/bin/python batch_scraper.py --all" | crontab -
    

📞 AJUDA IMEDIATA

  • Ler README.md secção Troubleshooting
  • Verificar logs: tail -f batch_scraper_*.log
  • Testar manualmente: python scraper.py (editar URL na linha 489)

Tempo estimado total: 2-4h para 30 sites Taxa de sucesso esperada: 80-90% Output aproximado: 2-5GB de ficheiros Markdown

Boa sorte! 🚀