init: scripts diversos (crawlers, conversores, scrapers)
This commit is contained in:
99
kb-processor/README.md
Executable file
99
kb-processor/README.md
Executable file
@@ -0,0 +1,99 @@
|
||||
# SuperBot Knowledge Base
|
||||
|
||||
Sistema de processamento e gestão de conhecimento para o SuperBot.
|
||||
|
||||
## Funcionalidades
|
||||
|
||||
- Processamento de URLs do YouTube
|
||||
- Extração automática de transcrições
|
||||
- Suporte para múltiplos idiomas
|
||||
- Correção automática de texto
|
||||
- Monitoramento de progresso em tempo real
|
||||
- Logs detalhados do processamento
|
||||
|
||||
- Processamento de Documentos
|
||||
- PDFs
|
||||
- Páginas Web
|
||||
- Arquivos de Texto
|
||||
|
||||
## Instalação
|
||||
|
||||
1. Clone o repositório:
|
||||
```bash
|
||||
git clone https://github.com/descomplicar/superbot-kb.git
|
||||
cd superbot-kb
|
||||
```
|
||||
|
||||
2. Crie e ative o ambiente virtual:
|
||||
```bash
|
||||
python -m venv .venv
|
||||
source .venv/bin/activate # Linux/Mac
|
||||
```
|
||||
|
||||
3. Instale as dependências:
|
||||
```bash
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
## Uso
|
||||
|
||||
### Interface Web
|
||||
|
||||
1. Inicie o servidor:
|
||||
```bash
|
||||
cd src/web
|
||||
python -m uvicorn app:app --reload --host 0.0.0.0 --port 3000
|
||||
```
|
||||
|
||||
2. Acesse a interface em `http://localhost:3000`
|
||||
|
||||
### API
|
||||
|
||||
- `POST /process-url`: Processa uma URL do YouTube
|
||||
- Parâmetros: `url` (string)
|
||||
- Retorna: JSON com conteúdo processado
|
||||
|
||||
- `POST /process-file`: Processa um arquivo
|
||||
- Parâmetros: `file` (multipart/form-data)
|
||||
- Retorna: JSON com conteúdo processado
|
||||
|
||||
## Estrutura do Projeto
|
||||
|
||||
```
|
||||
superbot-kb/
|
||||
├── src/
|
||||
│ ├── processors/ # Processadores de conteúdo
|
||||
│ │ ├── youtube_processor.py
|
||||
│ │ ├── pdf_processor.py
|
||||
│ │ └── web_processor.py
|
||||
│ └── web/ # Interface web
|
||||
│ ├── app.py
|
||||
│ └── templates/
|
||||
├── data/ # Dados processados
|
||||
├── logs/ # Logs do sistema
|
||||
├── requirements.txt # Dependências
|
||||
└── README.md # Documentação
|
||||
```
|
||||
|
||||
## Desenvolvimento
|
||||
|
||||
### Logs e Monitoramento
|
||||
|
||||
O sistema agora inclui logs detalhados para:
|
||||
- Extração de IDs de vídeos
|
||||
- Obtenção de informações
|
||||
- Processamento de vídeos
|
||||
- Extração de transcrições
|
||||
- Correção de texto
|
||||
- Atualização de metadados
|
||||
|
||||
### Próximos Passos
|
||||
|
||||
1. Melhorar interface web
|
||||
2. Adicionar suporte para mais formatos
|
||||
3. Implementar processamento em lote
|
||||
4. Otimizar performance
|
||||
|
||||
## Licença
|
||||
|
||||
Copyright 2025 Descomplicar - Agência de Aceleração Digital
|
||||
Reference in New Issue
Block a user