Pacote para facilitar o envio de arquivos para o s3, transformar arquivos csv e rds para Parquet, realizar limpeza simples dos dados e guardar dicionários de siglas governamentais.
Project description
MCDATA_PACKAGE
MCDATA_PACKAGE é um pacote Python para facilitar o envio de arquivos para o S3, transformar arquivos CSV e RDS para Parquet, realizar limpeza simples dos dados e guardar dicionários de siglas governamentais.
Instalação
Você pode instalar o pacote MCDATA_PACKAGE usando pip:
!pip install mcdata-package
Uso
Aqui estão alguns exemplos de como você pode usar o pacote MCDATA_PACKAGE:
Transformar arquivos CSV e RDS para Parquet
A seção transformar do pacote MCDATA_PACKAGE fornece funções para converter arquivos CSV e RDS para o formato Parquet. O Parquet é um formato de arquivo colunar que oferece alta performance, compactação e interoperabilidade.
from mcdata.transformar import csv_to_parquet, rds_to_parquet
csv_to_parquet('/path/to/csv_file.csv', '/path/to/parquet_file.parquet')
rds_to_parquet('/path/to/rds_file.rds', '/path/to/parquet_file.parquet')
Caso exista algum tipo de separador diferente:
csv_to_parquet('/path/to/csv_file.csv', '/path/to/parquet_file.parquet', delimiter = ';')
Neste exemplo, csv_to_parquet e rds_to_parquet são funções que convertem arquivos CSV e RDS, respectivamente, para o formato Parquet. /path/to/csv_file.csv e /path/to/rds_file.rds são os caminhos para os arquivos CSV e RDS que você deseja converter, respectivamente. /path/to/parquet_file.parquet é o caminho onde o arquivo Parquet convertido será salvo.
Manipular tabelas
A seção tabela do pacote MCDATA_PACKAGE fornece uma classe para manipular tabelas pandas. A classe ManiularTabela possui um método process_table que realiza várias operações de limpeza de dados em um DataFrame pandas.
import pandas as pd from mcdata.tabela import ManipularTabela
df = pd.read_csv('/path/to/csv_file.csv')
manipulator = ManipularTabela(df)
processed_df = manipulator.process_table(remove_duplicates=True, null_value_replacement='Unknown', column_mapping={'OldColumnName': 'NewColumnName'}, column_value_mapping={'ColumnName': {OldValueName: 'NewValueName'}})
Neste exemplo, df é um DataFrame pandas que você deseja manipular. remove_duplicates=True remove todas as linhas duplicadas do DataFrame, null_value_replacement='Unknown' substitui todos os valores nulos por 'Unknown', column_mapping={'OldColumnName': 'NewColumnName'} renomeia a coluna 'OldColumnName' para 'NewColumnName', e column_value_mapping={'ColumnName': {OldValueName: 'NewValueName'}} substitui todos os 'OldValueName' na coluna 'ColumnName' por 'NewValueName'.
Por favor, note que remove_duplicates, null_value_replacement, column_mapping e column_value_mapping são parâmetros opcionais. Se você não fornecer um desses parâmetros, o método process_table não realizará a operação correspondente.
Obter dicionários de siglas governamentais
A seção dicionários do pacote MCDATA_PACKAGE fornece funções para retornar siglas de DataFrame gorvenamentais.
from mcdata.dicionarios import uf
state_mapping = uf()
Enviar arquivos para o S3
from mcdata.s3 import S3Uploader
uploader = S3Uploader('YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_BUCKET_NAME')
uploader.upload_file('/path/to/file')
Neste exemplo, YOUR_ACCESS_KEY e YOUR_SECRET_KEY são suas credenciais da AWS e YOUR_BUCKET_NAME é o nome do seu bucket. /path/to/file é o caminho para o arquivo que você deseja enviar para o S3.
Por favor, note que você deve substituir 'YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_BUCKET_NAME' e '/path/to/file' pelas suas credenciais da AWS, o nome do seu bucket e o caminho para o arquivo, respectivamente.
Além disso, se você estiver usando uma sessão temporária, você pode adicionar um aws_session_token ao instanciar a classe S3Uploader: uploader = S3Uploader('YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_SESSION_TOKEN', 'YOUR_BUCKET_NAME')
Licença
Este projeto é licenciado sob a Licença MIT - por favor, veja LICENSE para mais detalhes.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for mcdata_package-0.0.9-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 6bae2db7c9cf4e248573d108fde2d70b2136c49962cec05c31941d77530be49c |
|
MD5 | eb92b1d978c2bea668adfb2fb46a3246 |
|
BLAKE2b-256 | e0df4b5b94103f21567b50ad8514351980a65a9112a2c87b3b2675848912c138 |