init: scripts diversos (crawlers, conversores, scrapers)

This commit is contained in:
2026-03-05 20:38:36 +00:00
commit 6ac6f4be2a
925 changed files with 850330 additions and 0 deletions

99
kb-processor/README.md Executable file
View File

@@ -0,0 +1,99 @@
# SuperBot Knowledge Base
Sistema de processamento e gestão de conhecimento para o SuperBot.
## Funcionalidades
- Processamento de URLs do YouTube
- Extração automática de transcrições
- Suporte para múltiplos idiomas
- Correção automática de texto
- Monitoramento de progresso em tempo real
- Logs detalhados do processamento
- Processamento de Documentos
- PDFs
- Páginas Web
- Arquivos de Texto
## Instalação
1. Clone o repositório:
```bash
git clone https://github.com/descomplicar/superbot-kb.git
cd superbot-kb
```
2. Crie e ative o ambiente virtual:
```bash
python -m venv .venv
source .venv/bin/activate # Linux/Mac
```
3. Instale as dependências:
```bash
pip install -r requirements.txt
```
## Uso
### Interface Web
1. Inicie o servidor:
```bash
cd src/web
python -m uvicorn app:app --reload --host 0.0.0.0 --port 3000
```
2. Acesse a interface em `http://localhost:3000`
### API
- `POST /process-url`: Processa uma URL do YouTube
- Parâmetros: `url` (string)
- Retorna: JSON com conteúdo processado
- `POST /process-file`: Processa um arquivo
- Parâmetros: `file` (multipart/form-data)
- Retorna: JSON com conteúdo processado
## Estrutura do Projeto
```
superbot-kb/
├── src/
│ ├── processors/ # Processadores de conteúdo
│ │ ├── youtube_processor.py
│ │ ├── pdf_processor.py
│ │ └── web_processor.py
│ └── web/ # Interface web
│ ├── app.py
│ └── templates/
├── data/ # Dados processados
├── logs/ # Logs do sistema
├── requirements.txt # Dependências
└── README.md # Documentação
```
## Desenvolvimento
### Logs e Monitoramento
O sistema agora inclui logs detalhados para:
- Extração de IDs de vídeos
- Obtenção de informações
- Processamento de vídeos
- Extração de transcrições
- Correção de texto
- Atualização de metadados
### Próximos Passos
1. Melhorar interface web
2. Adicionar suporte para mais formatos
3. Implementar processamento em lote
4. Otimizar performance
## Licença
Copyright 2025 Descomplicar - Agência de Aceleração Digital