# 🚀 GUIA RÁPIDO - 5 MINUTOS

## ⚡ **SETUP IMEDIATO**

### **1. Instalar (2 min)**
```bash
cd /media/ealmeida/Dados/Dev/Scripts/scraper/
source .venv/bin/activate  # Ativar venv existente
python -m playwright install chromium  # Se ainda não instalado
```

### **2. Configurar .env (1 min)**
```bash
cp .env.example .env
nano .env
```

Mínimo necessário:
```bash
# Se NÃO vais usar formatação AI, deixa vazio
OPENROUTER_API_KEY=

# Se NÃO vais scrape Reddit, deixa vazio
REDDIT_CLIENT_ID=
REDDIT_CLIENT_SECRET=
```

### **3. Executar (2 min)**

#### **Para os teus 30 sites:**
```bash
# TODOS os sites (exceto Reddit)
python batch_scraper.py --all

# Output: output_md/*.md
```

#### **Apenas Reddit:**
```bash
# Requer credenciais em .env
python batch_scraper.py --reddit-only
```

#### **Tudo junto:**
```bash
python batch_scraper.py --all --include-reddit
```

---

## 📊 **O QUE VAI ACONTECER**

```
[00:00] Iniciando batch...
[00:05] ✓ thehogring.com (15 páginas)
[00:12] ✓ sailrite.com (8 páginas)
[00:20] ✓ thesamba.com/vw/forum (23 páginas)
...
[02:30] Batch concluído: 28/30 sites (93% sucesso)
[02:30] Relatório: batch_report_20251105_143022.json
```

**Output**:
- `output_md/*.md` - Ficheiros Markdown
- `batch_report_*.json` - Relatório detalhado
- `batch_scraper_*.log` - Logs completos

---

## 🔧 **CUSTOMIZAÇÃO RÁPIDA**

### **Filtrar por tipo:**
```bash
# Apenas WordPress (rápido)
python batch_scraper.py --types wordpress

# Apenas fóruns (lento, muitas páginas)
python batch_scraper.py --types forum

# E-commerce (médio)
python batch_scraper.py --types ecommerce
```

### **Adicionar novo site:**

Edita `sites_config.json`:
```json
{
  "sites": [
    ...
    {
      "name": "Novo Site",
      "url": "https://novosite.com",
      "type": "wordpress",
      "max_depth": 2
    }
  ]
}
```

---

## ⚠️ **PROBLEMAS COMUNS**

### **"ModuleNotFoundError: playwright"**
```bash
pip install -r requirements.txt
python -m playwright install chromium
```

### **"Timeout" constante**
```bash
# Sites lentos = aumentar timeout
# Editar sites_config.json e adicionar:
"request_timeout": 120
```

### **"403 Forbidden"**
```bash
# Anti-bot detetado
# Aumentar delays:
"politeness_delay": [5, 10]
```

---

## 📈 **PRÓXIMOS PASSOS**

### **Limpeza (opcional):**
```bash
python clean_md.py output_md/ output_cleaned/
```

### **Formatação AI (opcional, requer API):**
```bash
python format_content.py
```

---

## 💡 **DICAS PRO**

1. **Testar 1 site primeiro:**
   ```bash
   # Editar sites_config.json
   # Deixar apenas 1 site
   python batch_scraper.py --all
   ```

2. **Executar em background:**
   ```bash
   nohup python batch_scraper.py --all > execution.log 2>&1 &
   # Monitora com: tail -f execution.log
   ```

3. **Scraping noturno:**
   ```bash
   # Agendar para 02:00
   echo "0 2 * * * cd /caminho/scraper && .venv/bin/python batch_scraper.py --all" | crontab -
   ```

---

## 📞 **AJUDA IMEDIATA**

- Ler `README.md` secção Troubleshooting
- Verificar logs: `tail -f batch_scraper_*.log`
- Testar manualmente: `python scraper.py` (editar URL na linha 489)

---

**Tempo estimado total**: 2-4h para 30 sites
**Taxa de sucesso esperada**: 80-90%
**Output aproximado**: 2-5GB de ficheiros Markdown

Boa sorte! 🚀