feat(bizin): scraper final com bypass Cloudflare + monitor de auto-reinício
- bizin_scraper_final.py: scraper híbrido curl_cffi + undetected-chromedriver com suporte a distritos e categorias, escrita segura (fsync) e enriquecimento externo - monitor_scraper.sh: watchdog que reinicia o processo automaticamente em crash - IMPLEMENTADO.md + README.md: actualizados para reflectir estado Abril 2026 - GEMINI.md: instruções técnicas de automação - test_curl.py, test_curl_clean.py, test_playwright.py: scripts de teste/diagnóstico Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
+3
-1
@@ -32,12 +32,14 @@ Sistema completo de web scraping para sites complexos, fóruns e Reddit.
|
||||
|
||||
### **Avançado**
|
||||
- ✅ Reddit API oficial (sem violar TOS)
|
||||
- ✅ **Bypass Cloudflare** (Modo headful + Turnstile resolution)
|
||||
- ✅ **Monitor de Resiliência** (Auto-restart em caso de crash)
|
||||
- ✅ Batch processing (múltiplos sites)
|
||||
- ✅ User-agent rotation
|
||||
- ✅ Proxy support
|
||||
- ✅ Rate limiting inteligente
|
||||
- ✅ Retry logic com backoff exponencial
|
||||
- ✅ Logging completo
|
||||
- ✅ Logging completo e escrita `fsync` segura
|
||||
|
||||
### **Tipos de Sites Suportados**
|
||||
- 🌐 Sites WordPress
|
||||
|
||||
Reference in New Issue
Block a user