Skip to main content

An engine to validate Machine Learning models.

Project description

mlops-validators-v2

Nova versão da engine de validação Python mlops_validators, inicialmente focada em DataFrames SQL do Pyspark.

Introdução

A mlops_validators é uma engine Python desenvolvida para validação de modelos de Machine Learning. Ela contém estruturas de dados e classes para calculos de diversas métricas. Os pacotes estão organizados da seguinte maneira:

  • mlops_validators.tables : Classes de estruturas de dados para a construção de tabelas cross de validação. Tem propósito de implementar calculos de contagem, proporções e ratings em tabelas cross para uma ou mais features. São estruturas de dados utilizadas nas implementações das métricas do mlops_validators.metrics.

  • mlops_validators.metrics : Classes com implementações de métricas de validação, tais como, Information Value, Kullback Leibler Divergence, Population Stability Index, Estatística de Chi2, Estatística de Kolmogorov Smirnov e Teste de Probabilidade de Default.

Requisitos

O mlops_validators foi desenvolvido usando Python e Spark. Para executar os códigos aqui presentes, recomenda-se instalar as dependências nas seguintes versões (mesmas que foram usadas para desenvolver o mlops_validators):

python 3.7.9
jvm 1.8
spark-3.2.1-bin-hadoop2.7
winutils for hadoop-2.7.1

O Python 3.7.9 pode ser obtido aqui, o spark-3.2.1-bin-hadoop2.7 pode ser obtido aqui e a ferramenta winutils na versão do hadoop 2.7.1 está disponível aqui. Extrair o spark e o winutils em uma pasta que possa ser acessada dentro de um programa Python.

Instalação

Caso a utilização do pacote seja local, recomenda-se a utilização de um ambiente virtual. A mlops_validators está disponível para instalação via pip:

pip install mlops_validators

Utilização

Se o spark for instalado de maneira local, é necessário adicionar as variáveis de ambiente do spark e do hadoop dentro do script ou notebook que o código for desenvolvido. Além disso, é necessário a chamada da findspark, biblioteca que busca o local do PySpark na máquina e executa o import (ele vem dentro do spark-3.2.1-bin-hadoop2.7). O código que executa esses passos é o seguinte (substituir nas variáveis de ambiente "HADOOP_HOME e "SPARK_HOME" os paths onde estão extraídos o winutils e o spark, respectivamente):

import os
os.environ["HADOOP_HOME"] = "caminho da winutils"
os.environ["SPARK_HOME"] = "caminho do spark"
import findspark 
findspark.init()

Contato

Qualquer dúvida entrar em contato com charles26f@gmail.com.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mlops_validators-0.3.tar.gz (9.7 kB view hashes)

Uploaded Source

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page