Commons utilitários para projetos Spark

These details have not been verified by PyPI

Project description

Repositório destinado a criação de functions para tratativas de dados em Arquitetura Medalhão!

Conceito:

A arquitetura medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados no lakehouse.

Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas de validações e transformações antes de serem armazenados em uma disposição otimizada para uma análise eficiente.

Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.

A arquitetura medalhão é um padrão de design de dados usado para organizar dados logicamente. Seu objetivo é melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ Ouro).

Com o avanço dos dados por essas camadas, as organizações podem melhorar gradativamente a qualidade e a confiabilidade dos dados, tornando-os mais adequados para aplicativos de Business Intelligence e aprendizado de máquina.

fonte: https://docs.databricks.com/aws/pt/lakehouse/medallion

Funções da Camada Silver

Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk

As funções abaixo são referente a etapa de um processo silver em uma arquitetura de dados medalhão

Onde nessa etapa o foco é realizar uma limpeza e normalização dos dados, definição de schema e outras modelagens que não são referente a regras de negócio.

No final, teremos uma tabela de dados confiável para a próxima etapa do pipeline.

column_to_date: Converte uma coluna de string para o tipo de dado de data.
column_to_timestamp: Converte uma coluna de string para o tipo timestamp.
numbers_to_date: Converte uma coluna de números em datas.
change_null_numeric: Substitui valores nulos em colunas numéricas por 0.
change_null_string: Substitui valores nulos em colunas de string por '-'.
remove_extra_spaces: Remove espaços em branco extras de todas as colunas de string em um DataFrame.
upper_string_column: Converte todos os caracteres de uma coluna de string para maiúsculas.
lower_string_column: Converte todos os caracteres de uma coluna de string para minúsculas.
change_column_name: Altera o nome de uma coluna em um DataFrame.
union_dataframes: Une uma lista de DataFrames .
filter_like: Filtra os registros de um DataFrame onde os valores de uma coluna específica correspondem a um padrão regex.
filter_by_max_date: Filtra o DataFrame para manter apenas as linhas com a maior data.
organize_data: Ordena o dataframe de acordo com uma coluna de identificação eliminando possivéis duplicatas.
convert_currency_column: Converte uma coluna de moeda no DataFrame para o tipo double.
type_monetary: Identifica o tipo de 'moeda' com base de uma coluna específicas.
replace_characters: Substitui um caracter específico por outro em uma coluna do DataFrame.
concat_columns: Concatena duas colunas de um DataFrame com um separador "_".

Funções da Camada Gold

Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk

As funções abaixo são referente a etapa de um processo gold em uma arquitetura de dados medalhão

Onde somente funções que são referente a regra de negocio passam por essa etapa. Além de funções para tratamento de dados, podemos realizar agragações para definição de tabela fato e dimenssão.

No final, teremos uma tabela de dados apta para criação de dataviz e processo de machine leaning.

extract_memory: Adiciona uma coluna com a quantidade de memória em GB extraída de outra coluna do DataFrame.
extract_characters: Extrai caracteres específicos de uma coluna e coloca o resultado em outra coluna do DataFrame.
condition_like: Adiciona uma nova coluna ao DataFrame com valores 'Sim' ou 'Nao' com base em uma condição de correspondência de padrão.

Funções de Teste Funcional

df_not_empty: Verifica se o Dataframe não está vazio retornando o nnúmero de linhas.
schema_equals_df_schema: Verifica se o schema corresponde ao que está ao dataframe (Utilizado após a aplicação do Schema ao df).
count_df_filtered_filter: Verifica se não ocorreu perda de linhas em um filtro de dados.
count_df_filtered_is_not_null: Verifica a quantidade de linhas nulas e não nulas são iguais ao dataframe original.
count_union_df: Verifica a consistência da união de um conjunto de DataFrames.
list_names_equal_df_names: Verifica se os nomes das colunas de um DataFrame (df) são exatamente iguais aos nomes presentes em uma lista (list_name).
number_columns_list_names_and_df: Verifica se o dataframe possuí a mesma quantidade de nomes em uma lista.

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.0.35

Mar 17, 2026

0.0.34

Mar 17, 2026

0.0.33

Mar 17, 2026

0.0.32

Mar 17, 2026

0.0.31

Mar 17, 2026

0.0.29

Feb 1, 2026

0.0.28

Feb 1, 2026

0.0.27

Feb 1, 2026

0.0.26

Feb 1, 2026

0.0.25

Feb 1, 2026

0.0.24

Feb 1, 2026

0.0.23

Feb 1, 2026

0.0.22

Feb 1, 2026

0.0.21

Jan 31, 2026

0.0.20

Jan 31, 2026

0.0.19

Jan 31, 2026

0.0.18

Jan 31, 2026

0.0.17

Jan 31, 2026

0.0.16

Jan 31, 2026

0.0.15

Jan 31, 2026

0.0.14

Jan 31, 2026

0.0.13

Jan 31, 2026

0.0.12

Jan 31, 2026

0.0.11

Jan 25, 2026

0.0.10

Jan 25, 2026

0.0.9

Jan 25, 2026

0.0.8

Jan 25, 2026

0.0.7

Jan 25, 2026

0.0.6

Jan 25, 2026

0.0.5

Jan 25, 2026

0.0.4

Jan 25, 2026

0.0.3

Jan 25, 2026

0.0.2

Jan 24, 2026

This version

0.0.1

Jan 21, 2026

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

servify-0.0.1.tar.gz (4.4 kB view details)

Uploaded Jan 21, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

servify-0.0.1-py3-none-any.whl (4.2 kB view details)

Uploaded Jan 21, 2026 Python 3

File details

Details for the file servify-0.0.1.tar.gz.

File metadata

Download URL: servify-0.0.1.tar.gz
Upload date: Jan 21, 2026
Size: 4.4 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.13.9

File hashes

Hashes for servify-0.0.1.tar.gz
Algorithm	Hash digest
SHA256	`5052f39873a250e6551c3dc9282205c0846b99b0ef2c71193476cd45d60c39eb`
MD5	`5d36fbc432fcf8ead0c60266ec3eff86`
BLAKE2b-256	`41efe3675fa4dd86bf89cb1567a1abcbdb4f9e6eee70075fdf18e0244cc56f36`

See more details on using hashes here.

File details

Details for the file servify-0.0.1-py3-none-any.whl.

File metadata

Download URL: servify-0.0.1-py3-none-any.whl
Upload date: Jan 21, 2026
Size: 4.2 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.13.9

File hashes

Hashes for servify-0.0.1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`9e9b14548a3ec8ba692acb001305deed0a034a4bfb8b8458c1405f44446756d9`
MD5	`51dc77fd1d0b41c0e57c5c5a8eb53a82`
BLAKE2b-256	`0c6e2c826228dc5c83792bb915eb6b786be7c900f6f112235a82014d179dd41a`

See more details on using hashes here.

servify 0.0.1

Navigation

Verified details

Maintainers

Unverified details

Meta

Project description

Repositório destinado a criação de functions para tratativas de dados em Arquitetura Medalhão!

Conceito:

Funções da Camada Silver

Funções da Camada Gold

Funções de Teste Funcional

Project details

Verified details

Maintainers

Unverified details

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes