ale-uy

herramienta para realizar limpieza, modelado y visualizacion de datos de manera sencilla y eficiente.

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

MÃ©todos Disponibles

Preprocesamiento de Datos (EDA)

eliminar_unitarios(df): Elimina las variables que tienen un solo valor en un DataFrame.
eliminar_nulos_si(df, p): Elimina las columnas con un porcentaje de valores nulos mayor o igual a p en un DataFrame.
imputar_faltantes(df, metodo="mm"): Imputa los valores faltantes en un DataFrame utilizando el mÃ©todo de la mediana para variables numÃ©ricas y el mÃ©todo de la moda para variables categÃ³ricas. TambiÃ©n es posible utilizar el mÃ©todo de KNN (K-Nearest Neighbors) para imputar los valores faltantes.
estandarizar_variables(df, metodo="zscore"): Estandariza las variables numÃ©ricas en un DataFrame utilizando el mÃ©todo "z-score" (estandarizaciÃ³n basada en la media y desviaciÃ³n estÃ¡ndar). Tambien estan disponibles otros metodos de estandarizacion 'minmax' y 'robust'
balancear_datos(df, target): Realiza un muestreo aleatorio de los datos para balancear las clases en un problema de clasificaciÃ³n binaria. Esto ayuda a mitigar problemas de desequilibrio de clases en el conjunto de datos.
mezclar_datos(df): Mezcla los datos en el DataFrame de forma aleatoria, lo que puede ser Ãºtil para dividir los datos en conjuntos de entrenamiento y prueba.
estadisticos_numerico(df): Genera datos estadÃsticos de las variables numÃ©ricas en el DataFrame.
convertir_a_numericas(df, target, metodo="ohe"): Realiza la codificaciÃ³n de variables categÃ³ricas utilizando diferentes mÃ©todos. Ademas de "ohe" (one-hot-encode) se puede seleccionar "dummy" y "label" (label-encode)
all_eda(...): Pipeline para realizar varios pasos (o todos) de la clase de forma automatica.

VisualizaciÃ³n de Datos (Graph)

graficos_categoricos(df): Crea grÃ¡ficos de barras horizontales para cada variable categÃ³rica en el DataFrame.
grafico_histograma(df, x): Genera un histograma interactivo para una columna especÃfica del DataFrame.
grafico_caja(df, x, y): Genera un grÃ¡fico de caja interactivo para una variable y en funciÃ³n de otra variable x.
grafico_dispersion(df, x, y): Genera un grÃ¡fico de dispersiÃ³n interactivo para dos variables x e y.
grafico_dendrograma(df): Genera un dendrograma que es Ãºtil para determinar el valor de k (grupos) para usar con la imputacion knn.

Modelado de Datos

modelo_lightgbm(...): Utiliza LightGBM para predecir la variable objetivo en un DataFrame. Este mÃ©todo admite problemas de clasificaciÃ³n y regresiÃ³n.
modelo_xgboost(...): Utiliza XGBoost para predecir la variable objetivo en un DataFrame. Este mÃ©todo tambiÃ©n es adecuado para problemas de clasificaciÃ³n y regresiÃ³n.
modelo_catboost(...): Utiliza CatBoost para predecir la variable objetivo en un DataFrame. Al igual que los mÃ©todos anteriores, puede manejar problemas de clasificaciÃ³n y regresiÃ³n.

IMPORTANTE: si se pasa como parametro grid=True a cualquiera de estos modelos (ejemplo: model_catboost(..., grid=True...)), ahora se realiza una busqueda de hiperparametros aleatoria para reducir los tiempos de entrenamiento; ademas podemos pasar n_iter=... con el numero que deseemos que el modelo pruebe de convinaciones diferentes de parametros (10 es la opcion por defecto).

EvaluaciÃ³n de Modelos

Metricas de ClasificaciÃ³n: Calcula varias mÃ©tricas de evaluaciÃ³n para un problema de clasificaciÃ³n, como precisiÃ³n, recall, F1-score y Ã¡rea bajo la curva ROC (AUC-ROC).
Metricas de RegresiÃ³n: Calcula diversas mÃ©tricas de evaluaciÃ³n para un problema de regresiÃ³n, incluyendo el error cuadrÃ¡tico medio (MSE), el coeficiente de determinaciÃ³n (R-cuadrado ajustado), entre otros.

SelecciÃ³n de Variables

importancia_variables(...): Calcula la importancia de las variables en funciÃ³n de su contribuciÃ³n a la predicciÃ³n, utiliza Bosque Aleatorio (RandomForest) con validacion cruzada. Utiliza un umbral que determina la importancia mÃnima requerida para mantener una variable o eliminarla.
generar_clusters(df): Aplica el algoritmo no-supervisado K-Means o DBSCAN a un DataFrame y devuelve una serie con el nÃºmero de cluster al que pertenece cada observaciÃ³n.
generar_soft_clusters(df): Aplica Gaussian Mixture Models (GMM) al dataframe para generar una tabla con las probabilidades de pertencia de cada observacion al cluster especifico.
Graphs.plot_cluster(df): GrÃ¡fico de codo y silueta que es escencial para determinar el nÃºmero de clusters Ã³ptimo a utilizar en los mÃ©todos de clusters anteriores.

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

1.5.0

Oct 6, 2023

1.3.2

Sep 29, 2023

1.3.1

Sep 28, 2023

1.3.0

Sep 28, 2023

1.2.0

Sep 23, 2023

1.1.4

Sep 18, 2023

This version

1.1.3

Sep 18, 2023

1.1.2

Sep 17, 2023

1.1.1

Sep 14, 2023

1.1

Sep 14, 2023

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ale-uy-1.1.3.tar.gz (22.8 kB view hashes)

Uploaded Sep 18, 2023 Source

Built Distribution

ale_uy-1.1.3-py3-none-any.whl (22.3 kB view hashes)

Uploaded Sep 18, 2023 Python 3

Hashes for ale-uy-1.1.3.tar.gz

Hashes for ale-uy-1.1.3.tar.gz
Algorithm	Hash digest
SHA256	`17acd996ddc3d0d3fa393b2010273867f96b5b9fb2cc7a47d3b65ab4f1311d4a`
MD5	`4b5fc5f29e66978b065ceca4c9357841`
BLAKE2b-256	`f50c7d84811ea50847a908cf93262adf7e32944b2596a3c79d66df49971c58e5`

Hashes for ale_uy-1.1.3-py3-none-any.whl

Hashes for ale_uy-1.1.3-py3-none-any.whl
Algorithm	Hash digest
SHA256	`23a196f817031134ccf544d9dab29e2bf64d01c6b4addf781b4afddf2b829f55`
MD5	`01d46f58f74dce736feb60e4daab8fbc`
BLAKE2b-256	`e1fd0f5bbe7a382f8fea97d288eb474f1d6499eeabc5d4f856a606682bfba7a8`