Skip to main content

Uma biblioteca de AutoML Exploratório e 'Glass-Box'.

Project description

🛡️ ScoutML: Enterprise AutoML & Audit FrameworkVersão: 2.1.0 | Foco: Governança, Auditabilidade e Robustez.O ScoutML não é apenas mais um framework de AutoML. Ele foi desenhado para ambientes regulados e críticos (Crédito, Fraude, Seguros, Saúde), onde explicar por que um modelo tomou uma decisão é tão importante quanto a sua performance.Diferente de outras ferramentas "caixa-preta", o ScoutML gera um Relatório de Auditoria Completo (Markdown + Gráficos) detalhando cada decisão estatística tomada, desde a limpeza de dados até a validação de estabilidade (PSI/KS).🚀 Principais Diferenciais (v2.1)1. 🕵️ Scout v2 (O Analista Estatístico)Antes de treinar, o Scout realiza uma varredura profunda nos dados:Detecção de Leakage: Usa um modelo "Sentinela" para identificar variáveis que contêm a resposta (vazamento de dados) e remove-as automaticamente.Perfilamento Estatístico: Calcula Skewness (assimetria), Kurtosis e Outliers (via IQR) para guiar o pré-processamento.Higiene de Dados: Remove identificadores (IDs), colunas constantes e multicolinearidade excessiva.2. 🔧 Forge v2 (O Engenheiro Inteligente)Constrói pipelines de scikit-learn dinamicamente baseados no diagnóstico do Scout:Tratamento de Outliers: Aplica RobustScaler automaticamente se detectar >5% de outliers.Normalização: Aplica PowerTransformer (Yeo-Johnson) em distribuições enviesadas.Encoding Inteligente: Alterna entre OneHotEncoder (baixa cardinalidade) e TargetEncoder (alta cardinalidade) para evitar explosão dimensional.3. ⚖️ Auditoria de Risco & EstabilidadePara problemas de classificação, o ScoutML gera métricas de mercado financeiro:KS (Kolmogorov-Smirnov): Mede a separação entre classes.PSI (Population Stability Index): Garante que o modelo não está degradado entre Treino e Teste.Matriz de Confusão: Visualização clara de Falsos Positivos/Negativos.📦 InstalaçãoO ScoutML depende de bibliotecas robustas de Data Science.Crie um arquivo requirements.txt (veja a seção abaixo).Instale as dependências:pip install -r requirements.txt ⚡ Quick Start1. Classificação (Ex: Risco de Crédito / Fraude)import pandas as pd from scoutml import Engine

Carregue seus dados

df = pd.read_csv("credit_risk_dataset.csv")

Inicialize a Engine

metric='roc_auc' é ideal para problemas binários

engine = Engine( df=df, target_col='default_payment', time_budget=300, # 5 minutos de otimização metric='roc_auc' )

Execute o pipeline

pipeline = engine.run()

O modelo final é salvo como .pkl e o relatório como .md

  1. Regressão (Ex: Previsão de Preços)engine = Engine( df=df_housing, target_col='price', metric='neg_root_mean_squared_error' ) engine.run() 📊 O Relatório de Auditoria (_audit_report.md)Ao final da execução, um arquivo Markdown é gerado contendo:Data Integrity: Tabela com Skewness, % de Nulos e recomendação estatística para cada feature.Pipeline Trace: Log exato de qual transformação foi aplicada em qual coluna e por quê (ex: "RobustScaler aplicado devido a 14% de outliers").Model Leaderboard: Comparativo de todos os modelos testados pelo Optuna (LightGBM vs XGBoost).Risk Audit: (Apenas Classificação) Gráficos de Curva KS, PSI e estabilidade por faixas de score.Interpretability: Gráfico SHAP (Summary Plot) para explicar as variáveis mais importantes.🏗️ Arquitetura do Projetoscoutml/ ├── init.py # Exporta os módulos ├── engine.py # O Maestro: Gerencia Optuna, Treino e Validação ├── scout.py # O Analista: Estatísticas, Leakage e Data Quality ├── forge.py # O Construtor: Cria Pipelines sklearn dinâmicos └── audit.py # O Auditor: Gera logs, calcula KS/PSI e escreve o Relatório 🛠️ Configuração AvançadaVocê pode personalizar o comportamento da Engine:engine = Engine( df=df, target_col='target',

    Tempo em segundos para busca de hiperparâmetros

    time_budget=600,

    Limite de correlação para remover colunas colineares ou vazamento

    correlation_threshold=0.90,

    Métrica de Otimização:

    'roc_auc', 'f1', 'precision', 'recall' (Classificação)

    'neg_root_mean_squared_error', 'r2' (Regressão)

    metric='recall'
    ) 📝 Requisitos (requirements.txt)Copie este conteúdo para o seu arquivo requirements.txt:numpy>=1.21.0 pandas>=1.3.0 scipy>=1.7.0 scikit-learn>=1.0.0 optuna>=3.0.0 shap>=0.40.0 joblib>=1.1.0 matplotlib>=3.5.0 seaborn>=0.11.0 tabulate>=0.8.0 lightgbm>=3.3.0 xgboost>=1.6.0 Desenvolvido para Data Science Sério. Sem caixas-pretas. Apenas ciência auditável.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

trailblazer_ml-0.1.3.tar.gz (20.9 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

trailblazer_ml-0.1.3-py3-none-any.whl (20.3 kB view details)

Uploaded Python 3

File details

Details for the file trailblazer_ml-0.1.3.tar.gz.

File metadata

  • Download URL: trailblazer_ml-0.1.3.tar.gz
  • Upload date:
  • Size: 20.9 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.14.2

File hashes

Hashes for trailblazer_ml-0.1.3.tar.gz
Algorithm Hash digest
SHA256 329f57e0b4b9c982c1c846bde1658cda55528ad17ec5b3512b8d7e71e1c36374
MD5 47e3bf8140d59f39e70b2d6a162224dc
BLAKE2b-256 7b839ee3f56c282648d4b503e2ef762f33c6e5b850aa92327fd3effcc9ab627c

See more details on using hashes here.

File details

Details for the file trailblazer_ml-0.1.3-py3-none-any.whl.

File metadata

  • Download URL: trailblazer_ml-0.1.3-py3-none-any.whl
  • Upload date:
  • Size: 20.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.14.2

File hashes

Hashes for trailblazer_ml-0.1.3-py3-none-any.whl
Algorithm Hash digest
SHA256 67f679a7df82f91dc785434aa1b47cfdc23be36aa3bb084ef7db5b0f411383d2
MD5 34d53f35e6c5a27d7363cd86ecba7e77
BLAKE2b-256 5a1d2dc81cea4bd6bcdf7d569794a8af6638db2f2cf81ebcae7f379ea7eb1c4d

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page