feat(bizin): scraper final com bypass Cloudflare + monitor de auto-reinício

- bizin_scraper_final.py: scraper híbrido curl_cffi + undetected-chromedriver
  com suporte a distritos e categorias, escrita segura (fsync) e enriquecimento externo
- monitor_scraper.sh: watchdog que reinicia o processo automaticamente em crash
- IMPLEMENTADO.md + README.md: actualizados para reflectir estado Abril 2026
- GEMINI.md: instruções técnicas de automação
- test_curl.py, test_curl_clean.py, test_playwright.py: scripts de teste/diagnóstico

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-04-28 17:16:48 +01:00
parent 865a9459a6
commit 8e0dbbeca0
8 changed files with 337 additions and 220 deletions
+3 -1
View File
@@ -32,12 +32,14 @@ Sistema completo de web scraping para sites complexos, fóruns e Reddit.
### **Avançado**
- ✅ Reddit API oficial (sem violar TOS)
-**Bypass Cloudflare** (Modo headful + Turnstile resolution)
-**Monitor de Resiliência** (Auto-restart em caso de crash)
- ✅ Batch processing (múltiplos sites)
- ✅ User-agent rotation
- ✅ Proxy support
- ✅ Rate limiting inteligente
- ✅ Retry logic com backoff exponencial
- ✅ Logging completo
- ✅ Logging completo e escrita `fsync` segura
### **Tipos de Sites Suportados**
- 🌐 Sites WordPress