8e0dbbeca0
- bizin_scraper_final.py: scraper híbrido curl_cffi + undetected-chromedriver com suporte a distritos e categorias, escrita segura (fsync) e enriquecimento externo - monitor_scraper.sh: watchdog que reinicia o processo automaticamente em crash - IMPLEMENTADO.md + README.md: actualizados para reflectir estado Abril 2026 - GEMINI.md: instruções técnicas de automação - test_curl.py, test_curl_clean.py, test_playwright.py: scripts de teste/diagnóstico Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
1.2 KiB
1.2 KiB
🤖 Instruções para o Gemini CLI
Este ficheiro serve como guia de continuidade para sessões futuras.
🎯 Contexto Atual: Scraper Bizin
O ficheiro principal é o bizin_scraper_final.py. Ele foi desenhado para ser resiliente e híbrido.
🚀 Como Continuar (Modo Autónomo)
Quando o utilizador reiniciar com --allow all, segue estes passos:
- Execução: Corre o scraper usando
./venv/bin/python bizin_scraper_final.py. - Monitorização:
- Observa o ficheiro
logs/bizin_final.logem tempo real. - Verifica o crescimento do CSV em
output/bizin_empresas_final.csv.
- Observa o ficheiro
- Gestão de Bloqueios:
- O script já tem lógica de fallback para
undetected-chromedriver(UC). - Nota Crítica: Se o UC falhar por erro de versão de Chrome (v147 vs v148), tenta atualizar o driver ou sugerir a correção do binário do Chrome se tiveres permissão.
- O script já tem lógica de fallback para
- Relatório: Ao terminar (ou se houver erro fatal), gera um breve resumo de quantas empresas foram extraídas.
🛠️ Comandos Frequentes
- Executar:
./venv/bin/python bizin_scraper_final.py - Ver Progresso:
tail -f logs/bizin_final.log - Contar Resultados:
wc -l output/bizin_empresas_final.csv