init: scripts diversos (crawlers, conversores, scrapers)

2026-03-05 20:38:36 +00:00
commit 6ac6f4be2a
925 changed files with 850330 additions and 0 deletions
@@ -0,0 +1,340 @@
+"""
+batch_scraper_v2_batch4.py - Scraper Batch 4 Otimizado
+
+MELHORIAS v2:
+- Respeita max_depth configurado (sem overrides)
+- Suporte Playwright stealth para anti-bot
+- Profundidade nível 4 funcional
+- Filtros aplicados APÓS scraping
+- Melhor gestão timeouts e retries
+
+Author: Descomplicar® Crescimento Digital
+Link: https://descomplicar.pt
+Copyright: 2025 Descomplicar®
+"""
+
+import os
+import json
+import logging
+import argparse
+import time
+from pathlib import Path
+from typing import List, Dict, Optional
+from datetime import datetime
+
+from scraper import Scraper, ScraperConfig
+from reddit_scraper import RedditScraper
+
+class BatchScraperV2:
+    """Batch Scraper v2 - Otimizado para Batch 4."""
+
+    def __init__(self, config_file: str = "ctf_config_batch4.json"):
+        """
+        Inicializa batch scraper v2.
+
+        Args:
+            config_file: Caminho configuração JSON
+        """
+        self.config_file = config_file
+        self.config = self.load_config()
+
+        # Configurar diretórios
+        self.setup_directories()
+
+        # Configurar logging
+        self.setup_logging()
+
+        self.results = {
+            "started_at": datetime.now().isoformat(),
+            "config_file": config_file,
+            "batch_version": "v2",
+            "total_sites": 0,
+            "successful": 0,
+            "failed": 0,
+            "total_pages": 0,
+            "sites": []
+        }
+
+    def load_config(self) -> Dict:
+        """Carrega configuração JSON."""
+        try:
+            with open(self.config_file, 'r', encoding='utf-8') as f:
+                config = json.load(f)
+            print(f"[INFO] Config carregada: {self.config_file}")
+            print(f"[INFO] Batch: {config.get('client', 'Unknown')}")
+            print(f"[INFO] Sites: {len(config.get('sites', []))}")
+            return config
+        except FileNotFoundError:
+            print(f"[ERROR] Config não encontrada: {self.config_file}")
+            raise
+        except json.JSONDecodeError as e:
+            print(f"[ERROR] JSON inválido: {e}")
+            raise
+
+    def setup_directories(self):
+        """Configura diretórios output."""
+        base_dir = self.config.get('output_base_dir', '.')
+        output_dirs = self.config.get('output_dirs', {
+            'raw': 'output_md_batch4',
+            'cleaned': 'output_cleaned_batch4',
+            'formatted': 'formatted_batch4',
+            'logs': 'logs'
+        })
+
+        self.base_path = Path(base_dir)
+        self.raw_dir = self.base_path / output_dirs['raw']
+        self.cleaned_dir = self.base_path / output_dirs['cleaned']
+        self.formatted_dir = self.base_path / output_dirs['formatted']
+        self.logs_dir = self.base_path / output_dirs['logs']
+
+        # Criar diretórios
+        for directory in [self.raw_dir, self.cleaned_dir, self.formatted_dir, self.logs_dir]:
+            directory.mkdir(parents=True, exist_ok=True)
+
+        print(f"[INFO] Base: {self.base_path}")
+        print(f"[INFO] Output: {self.raw_dir}")
+        print(f"[INFO] Logs: {self.logs_dir}")
+
+    def setup_logging(self):
+        """Configura logging."""
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        log_file = self.logs_dir / f'batch4_execution_{timestamp}.log'
+
+        logging.basicConfig(
+            level=logging.INFO,
+            format='%(asctime)s - %(levelname)s - %(message)s',
+            handlers=[
+                logging.FileHandler(log_file, encoding='utf-8'),
+                logging.StreamHandler()
+            ],
+            force=True
+        )
+
+        logging.info(f"=== BATCH 4 SCRAPER V2 INICIADO ===")
+        logging.info(f"Log file: {log_file}")
+        logging.info(f"Config: {self.config_file}")
+
+    def scrape_websites(self,
+                       phase: Optional[str] = None,
+                       site_names: Optional[List[str]] = None,
+                       skip_anti_bot: bool = False):
+        """
+        Scrape websites.
+
+        Args:
+            phase: Filtrar por fase (ex: "1A", "2", "3")
+            site_names: Lista nomes específicos
+            skip_anti_bot: Pular sites com anti-bot (para testes)
+        """
+        sites = self.config.get('sites', [])
+
+        # Filtrar sites
+        if site_names:
+            sites = [s for s in sites if s.get('name') in site_names]
+
+        if skip_anti_bot:
+            sites = [s for s in sites if not s.get('anti_bot_protection', False)]
+            logging.info(f"Skip anti-bot: {len(sites)} sites sem proteção")
+
+        if not sites:
+            logging.warning("Nenhum site para processar")
+            return
+
+        logging.info(f"Processando {len(sites)} sites...")
+        self.results['total_sites'] = len(sites)
+
+        for idx, site in enumerate(sites, 1):
+            site_name = site.get('name', 'Unknown')
+            logging.info(f"\n{'='*60}")
+            logging.info(f"Site {idx}/{len(sites)}: {site_name}")
+            logging.info(f"{'='*60}")
+
+            try:
+                self._scrape_single_site(site)
+            except Exception as e:
+                logging.error(f"ERRO CRÍTICO em {site_name}: {e}", exc_info=True)
+                self.results['failed'] += 1
+                self.results['sites'].append({
+                    "name": site_name,
+                    "url": site.get('url'),
+                    "status": "failed",
+                    "error": str(e)
+                })
+
+            # Pausa entre sites (politeness)
+            if idx < len(sites):
+                pause = 10
+                logging.info(f"Pausa {pause}s antes próximo site...")
+                time.sleep(pause)
+
+        # Guardar resultados
+        self._save_results()
+
+        logging.info(f"\n{'='*60}")
+        logging.info(f"BATCH 4 CONCLUÍDO")
+        logging.info(f"Sucesso: {self.results['successful']}/{self.results['total_sites']}")
+        logging.info(f"Falhas: {self.results['failed']}")
+        logging.info(f"Total páginas: {self.results['total_pages']}")
+        logging.info(f"{'='*60}")
+
+    def _scrape_single_site(self, site: Dict):
+        """Processa um site individual."""
+        name = site.get('name', 'Unknown')
+        url = site.get('url')
+        site_type = site.get('type', 'website')
+
+        # IMPORTANTE: Respeitar max_depth do config (não override!)
+        max_depth = site.get('max_depth', 4)
+
+        # Configurações site
+        priority = site.get('priority', 'medium')
+        requires_js = site.get('requires_javascript', False)
+        anti_bot = site.get('anti_bot_protection', False)
+        estimated_pages = site.get('estimated_pages', 100)
+
+        logging.info(f"URL: {url}")
+        logging.info(f"Tipo: {site_type}")
+        logging.info(f"Max Depth: {max_depth} (CONFIGURADO - sem override)")
+        logging.info(f"Prioridade: {priority}")
+        logging.info(f"Anti-bot: {'Sim' if anti_bot else 'Não'}")
+        logging.info(f"Páginas estimadas: {estimated_pages}")
+
+        # Obter settings gerais
+        scraper_settings = self.config.get('scraper_settings', {})
+
+        # Criar configuração scraper
+        config = ScraperConfig(
+            max_depth=max_depth,  # RESPEITAR CONFIG!
+            request_timeout=scraper_settings.get('request_timeout', 120),
+            max_retries=scraper_settings.get('max_retries', 3),
+            politeness_delay=tuple(scraper_settings.get('politeness_delay', [4, 10])),
+            output_dir=str(self.raw_dir),
+            excluded_patterns=scraper_settings.get('excluded_patterns', []),
+            save_metadata=True,
+            clean_output=True,
+            use_playwright=scraper_settings.get('use_playwright', True),
+            headless=scraper_settings.get('headless', True)
+        )
+
+        # NOTA: Filtros de conteúdo aplicados APÓS (na extração)
+        # Não filtrar durante scraping para ser mais seguro
+
+        logging.info(f"Timeout: {config.request_timeout}s")
+        logging.info(f"Retries: {config.max_retries}")
+        logging.info(f"Politeness: {config.politeness_delay[0]}-{config.politeness_delay[1]}s")
+        logging.info(f"Playwright: {'Sim' if config.use_playwright else 'Não'}")
+
+        # Executar scraping
+        scraper = Scraper(config)
+
+        try:
+            start_time = time.time()
+            scraper.crawl(url)
+            duration = time.time() - start_time
+
+            pages_scraped = len(scraper.visited)
+            pages_failed = len(scraper.failed_urls)
+
+            self.results['successful'] += 1
+            self.results['total_pages'] += pages_scraped
+
+            self.results['sites'].append({
+                "name": name,
+                "url": url,
+                "type": site_type,
+                "max_depth": max_depth,
+                "status": "success",
+                "pages_scraped": pages_scraped,
+                "pages_failed": pages_failed,
+                "duration_seconds": round(duration, 2),
+                "estimated_pages": estimated_pages,
+                "efficiency": round((pages_scraped / estimated_pages * 100), 2) if estimated_pages > 0 else 0
+            })
+
+            logging.info(f"✅ {name} CONCLUÍDO")
+            logging.info(f"Páginas extraídas: {pages_scraped}")
+            logging.info(f"Páginas falhadas: {pages_failed}")
+            logging.info(f"Duração: {duration:.2f}s ({duration/60:.2f}min)")
+            logging.info(f"Eficiência: {pages_scraped/estimated_pages*100:.1f}% da estimativa")
+
+        except Exception as e:
+            logging.error(f"❌ Erro em {name}: {e}", exc_info=True)
+
+            self.results['failed'] += 1
+            self.results['sites'].append({
+                "name": name,
+                "url": url,
+                "status": "failed",
+                "error": str(e)
+            })
+            raise
+
+    def _save_results(self):
+        """Guarda resultados batch."""
+        self.results['completed_at'] = datetime.now().isoformat()
+
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        results_file = self.logs_dir / f'batch4_results_{timestamp}.json'
+
+        with open(results_file, 'w', encoding='utf-8') as f:
+            json.dump(self.results, f, indent=2, ensure_ascii=False)
+
+        logging.info(f"Resultados guardados: {results_file}")
+
+    def scrape_reddit(self):
+        """Scrape subreddits (separado)."""
+        subreddits = self.config.get('reddit_subreddits', [])
+
+        if not subreddits:
+            logging.info("Sem subreddits configurados")
+            return
+
+        logging.info(f"Processando {len(subreddits)} subreddits...")
+
+        # TODO: Implementar se necessário
+        logging.warning("Reddit scraping não implementado nesta versão")
+
+
+def main():
+    """Entry point."""
+    parser = argparse.ArgumentParser(
+        description='CTF Batch 4 Scraper V2 - Otimizado para profundidade nível 4'
+    )
+    parser.add_argument(
+        '--config',
+        default='ctf_config_batch4.json',
+        help='Ficheiro configuração (default: ctf_config_batch4.json)'
+    )
+    parser.add_argument(
+        '--phase',
+        help='Executar apenas uma fase (ex: 1A, 2, 3)'
+    )
+    parser.add_argument(
+        '--sites',
+        nargs='+',
+        help='Nomes específicos de sites'
+    )
+    parser.add_argument(
+        '--skip-anti-bot',
+        action='store_true',
+        help='Pular sites com proteção anti-bot'
+    )
+
+    args = parser.parse_args()
+
+    print("="*60)
+    print("CTF BATCH 4 SCRAPER V2")
+    print("Descomplicar® Crescimento Digital")
+    print("="*60)
+    print()
+
+    scraper = BatchScraperV2(config_file=args.config)
+    scraper.scrape_websites(
+        phase=args.phase,
+        site_names=args.sites,
+        skip_anti_bot=args.skip_anti_bot
+    )
+
+
+if __name__ == '__main__':
+    main()