Uma biblioteca de AutoML Exploratório e 'Glass-Box'.
Project description
🛡️ ScoutML: Enterprise AutoML & Audit FrameworkVersão: 2.1.0 | Foco: Governança, Auditabilidade e Robustez.O ScoutML não é apenas mais um framework de AutoML. Ele foi desenhado para ambientes regulados e críticos (Crédito, Fraude, Seguros, Saúde), onde explicar por que um modelo tomou uma decisão é tão importante quanto a sua performance.Diferente de outras ferramentas "caixa-preta", o ScoutML gera um Relatório de Auditoria Completo (Markdown + Gráficos) detalhando cada decisão estatística tomada, desde a limpeza de dados até a validação de estabilidade (PSI/KS).🚀 Principais Diferenciais (v2.1)1. 🕵️ Scout v2 (O Analista Estatístico)Antes de treinar, o Scout realiza uma varredura profunda nos dados:Detecção de Leakage: Usa um modelo "Sentinela" para identificar variáveis que contêm a resposta (vazamento de dados) e remove-as automaticamente.Perfilamento Estatístico: Calcula Skewness (assimetria), Kurtosis e Outliers (via IQR) para guiar o pré-processamento.Higiene de Dados: Remove identificadores (IDs), colunas constantes e multicolinearidade excessiva.2. 🔧 Forge v2 (O Engenheiro Inteligente)Constrói pipelines de scikit-learn dinamicamente baseados no diagnóstico do Scout:Tratamento de Outliers: Aplica RobustScaler automaticamente se detectar >5% de outliers.Normalização: Aplica PowerTransformer (Yeo-Johnson) em distribuições enviesadas.Encoding Inteligente: Alterna entre OneHotEncoder (baixa cardinalidade) e TargetEncoder (alta cardinalidade) para evitar explosão dimensional.3. ⚖️ Auditoria de Risco & EstabilidadePara problemas de classificação, o ScoutML gera métricas de mercado financeiro:KS (Kolmogorov-Smirnov): Mede a separação entre classes.PSI (Population Stability Index): Garante que o modelo não está degradado entre Treino e Teste.Matriz de Confusão: Visualização clara de Falsos Positivos/Negativos.📦 InstalaçãoO ScoutML depende de bibliotecas robustas de Data Science.Crie um arquivo requirements.txt (veja a seção abaixo).Instale as dependências:pip install -r requirements.txt ⚡ Quick Start1. Classificação (Ex: Risco de Crédito / Fraude)import pandas as pd from scoutml import Engine
Carregue seus dados
df = pd.read_csv("credit_risk_dataset.csv")
Inicialize a Engine
metric='roc_auc' é ideal para problemas binários
engine = Engine( df=df, target_col='default_payment', time_budget=300, # 5 minutos de otimização metric='roc_auc' )
Execute o pipeline
pipeline = engine.run()
O modelo final é salvo como .pkl e o relatório como .md
-
Regressão (Ex: Previsão de Preços)engine = Engine( df=df_housing, target_col='price', metric='neg_root_mean_squared_error' ) engine.run() 📊 O Relatório de Auditoria (_audit_report.md)Ao final da execução, um arquivo Markdown é gerado contendo:Data Integrity: Tabela com Skewness, % de Nulos e recomendação estatística para cada feature.Pipeline Trace: Log exato de qual transformação foi aplicada em qual coluna e por quê (ex: "RobustScaler aplicado devido a 14% de outliers").Model Leaderboard: Comparativo de todos os modelos testados pelo Optuna (LightGBM vs XGBoost).Risk Audit: (Apenas Classificação) Gráficos de Curva KS, PSI e estabilidade por faixas de score.Interpretability: Gráfico SHAP (Summary Plot) para explicar as variáveis mais importantes.🏗️ Arquitetura do Projetoscoutml/ ├── init.py # Exporta os módulos ├── engine.py # O Maestro: Gerencia Optuna, Treino e Validação ├── scout.py # O Analista: Estatísticas, Leakage e Data Quality ├── forge.py # O Construtor: Cria Pipelines sklearn dinâmicos └── audit.py # O Auditor: Gera logs, calcula KS/PSI e escreve o Relatório 🛠️ Configuração AvançadaVocê pode personalizar o comportamento da Engine:engine = Engine( df=df, target_col='target',
Tempo em segundos para busca de hiperparâmetros
time_budget=600,
Limite de correlação para remover colunas colineares ou vazamento
correlation_threshold=0.90,
Métrica de Otimização:
'roc_auc', 'f1', 'precision', 'recall' (Classificação)
'neg_root_mean_squared_error', 'r2' (Regressão)
metric='recall'
) 📝 Requisitos (requirements.txt)Copie este conteúdo para o seu arquivo requirements.txt:numpy>=1.21.0 pandas>=1.3.0 scipy>=1.7.0 scikit-learn>=1.0.0 optuna>=3.0.0 shap>=0.40.0 joblib>=1.1.0 matplotlib>=3.5.0 seaborn>=0.11.0 tabulate>=0.8.0 lightgbm>=3.3.0 xgboost>=1.6.0 Desenvolvido para Data Science Sério. Sem caixas-pretas. Apenas ciência auditável.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file trailblazer_ml-0.1.3.tar.gz.
File metadata
- Download URL: trailblazer_ml-0.1.3.tar.gz
- Upload date:
- Size: 20.9 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
329f57e0b4b9c982c1c846bde1658cda55528ad17ec5b3512b8d7e71e1c36374
|
|
| MD5 |
47e3bf8140d59f39e70b2d6a162224dc
|
|
| BLAKE2b-256 |
7b839ee3f56c282648d4b503e2ef762f33c6e5b850aa92327fd3effcc9ab627c
|
File details
Details for the file trailblazer_ml-0.1.3-py3-none-any.whl.
File metadata
- Download URL: trailblazer_ml-0.1.3-py3-none-any.whl
- Upload date:
- Size: 20.3 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.14.2
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
67f679a7df82f91dc785434aa1b47cfdc23be36aa3bb084ef7db5b0f411383d2
|
|
| MD5 |
34d53f35e6c5a27d7363cd86ecba7e77
|
|
| BLAKE2b-256 |
5a1d2dc81cea4bd6bcdf7d569794a8af6638db2f2cf81ebcae7f379ea7eb1c4d
|