An engine to validate Machine Learning models.
Project description
mlops-validators-v2
Nova versão da engine de validação Python mlops_validators, inicialmente focada em DataFrames SQL do Pyspark.
Introdução
A mlops_validators é uma engine Python desenvolvida para validação de modelos de Machine Learning. Ela contém estruturas de dados e classes para calculos de diversas métricas. Os pacotes estão organizados da seguinte maneira:
-
mlops_validators.tables : Classes de estruturas de dados para a construção de tabelas de frequência para validação. Tem propósito de implementar calculos de contagem, proporções e percentuais em tabelas de frequência para uma ou mais features. São estruturas de dados utilizadas nas implementações das métricas do pacote
mlops_validators.metrics
. -
mlops_validators.metrics : Classes com implementações de métricas de validação, tais como, Information Value, Kullback Leibler Divergence, Population Stability Index, Estatística de Chi2, Estatística de Kolmogorov Smirnov e Teste de Proporção.
-
mlops_validators.profiles : Classes wrapper de alto nível para executar calculos de diversas métricas de uma só vez.
Requisitos
O mlops_validators foi desenvolvido usando Python e Spark. Para executar os códigos aqui presentes, recomenda-se instalar as dependências nas seguintes versões (mesmas que foram usadas para desenvolver o mlops_validators):
python 3.7.9
jvm 1.8
spark-3.2.1-bin-hadoop2.7
winutils for hadoop-2.7.1
O Python 3.7.9 pode ser obtido aqui, o spark-3.2.1-bin-hadoop2.7
pode ser obtido aqui e a ferramenta winutils
na versão do hadoop 2.7.1 está disponível aqui. Extrair o spark e o winutils em uma pasta que possa ser acessada dentro de um programa Python.
Instalação
Caso a utilização do pacote seja local, recomenda-se a utilização de um ambiente virtual. A mlops_validators está disponível para instalação via pip:
pip install mlops_validators
Utilização
Se o spark for instalado de maneira local, é necessário adicionar as variáveis de ambiente do spark e do hadoop dentro do script ou notebook que o código for desenvolvido. Além disso, é necessário a chamada da findspark
, biblioteca que busca o local do PySpark na máquina e executa o import (ele vem dentro do spark-3.2.1-bin-hadoop2.7). O código que executa esses passos é o seguinte (substituir nas variáveis de ambiente "HADOOP_HOME e "SPARK_HOME" os paths onde estão extraídos o winutils e o spark, respectivamente):
import os
os.environ["HADOOP_HOME"] = "caminho da winutils"
os.environ["SPARK_HOME"] = "caminho do spark"
import findspark
findspark.init()
Contato
Qualquer dúvida entrar em contato com charles26f@gmail.com.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
File details
Details for the file mlops_validators-0.9.5.tar.gz
.
File metadata
- Download URL: mlops_validators-0.9.5.tar.gz
- Upload date:
- Size: 11.8 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.1 CPython/3.7.9
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | ac7245f7841d155c7f82885c587e5227481c1449bcd3398d60b34cde8da8b560 |
|
MD5 | d18f8dc5778eba71da94f097e6aa57db |
|
BLAKE2b-256 | d85b4d8f4cf52f8a71f046420b4c79c942ec06be9120c1962682e80f576c1bed |