Skip to main content

An engine to validate Machine Learning models.

Project description

mlops-validators-v2

Nova versão da engine de validação Python mlops_validators, inicialmente focada em DataFrames SQL do Pyspark.

Introdução

A mlops_validators é uma engine Python desenvolvida para validação de modelos de Machine Learning. Ela contém estruturas de dados e classes para calculos de diversas métricas. Os pacotes estão organizados da seguinte maneira:

  • mlops_validators.tables : Classes de estruturas de dados para a construção de tabelas de frequência para validação. Tem propósito de implementar calculos de contagem, proporções e percentuais em tabelas de frequência para uma ou mais features. São estruturas de dados utilizadas nas implementações das métricas do pacote mlops_validators.metrics.

  • mlops_validators.metrics : Classes com implementações de métricas de validação, tais como, Information Value, Kullback Leibler Divergence, Population Stability Index, Estatística de Chi2, Estatística de Kolmogorov Smirnov e Teste de Proporção.

  • mlops_validators.profiles : Classes wrapper de alto nível para executar calculos de diversas métricas de uma só vez.

Requisitos

O mlops_validators foi desenvolvido usando Python e Spark. Para executar os códigos aqui presentes, recomenda-se instalar as dependências nas seguintes versões (mesmas que foram usadas para desenvolver o mlops_validators):

python 3.7.9
jvm 1.8
spark-3.2.1-bin-hadoop2.7
winutils for hadoop-2.7.1

O Python 3.7.9 pode ser obtido aqui, o spark-3.2.1-bin-hadoop2.7 pode ser obtido aqui e a ferramenta winutils na versão do hadoop 2.7.1 está disponível aqui. Extrair o spark e o winutils em uma pasta que possa ser acessada dentro de um programa Python.

Instalação

Caso a utilização do pacote seja local, recomenda-se a utilização de um ambiente virtual. A mlops_validators está disponível para instalação via pip:

pip install mlops_validators

Utilização

Se o spark for instalado de maneira local, é necessário adicionar as variáveis de ambiente do spark e do hadoop dentro do script ou notebook que o código for desenvolvido. Além disso, é necessário a chamada da findspark, biblioteca que busca o local do PySpark na máquina e executa o import (ele vem dentro do spark-3.2.1-bin-hadoop2.7). O código que executa esses passos é o seguinte (substituir nas variáveis de ambiente "HADOOP_HOME e "SPARK_HOME" os paths onde estão extraídos o winutils e o spark, respectivamente):

import os
os.environ["HADOOP_HOME"] = "caminho da winutils"
os.environ["SPARK_HOME"] = "caminho do spark"
import findspark 
findspark.init()

Contato

Qualquer dúvida entrar em contato com charles26f@gmail.com.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mlops_validators-0.9.5.tar.gz (11.8 kB view details)

Uploaded Source

File details

Details for the file mlops_validators-0.9.5.tar.gz.

File metadata

  • Download URL: mlops_validators-0.9.5.tar.gz
  • Upload date:
  • Size: 11.8 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.7.9

File hashes

Hashes for mlops_validators-0.9.5.tar.gz
Algorithm Hash digest
SHA256 ac7245f7841d155c7f82885c587e5227481c1449bcd3398d60b34cde8da8b560
MD5 d18f8dc5778eba71da94f097e6aa57db
BLAKE2b-256 d85b4d8f4cf52f8a71f046420b4c79c942ec06be9120c1962682e80f576c1bed

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page