Skip to main content

Pacote para facilitar o envio de arquivos para o s3, transformar arquivos csv e rds para Parquet, realizar limpeza simples dos dados e guardar dicionários de siglas governamentais.

Project description

MCDATA_PACKAGE

MCDATA_PACKAGE é um pacote Python para facilitar o envio de arquivos para o S3, transformar arquivos CSV e RDS para Parquet, realizar limpeza simples dos dados e guardar dicionários de siglas governamentais.

Instalação

Você pode instalar o pacote MCDATA_PACKAGE usando pip:

!pip install mcdata-package

Uso

Aqui estão alguns exemplos de como você pode usar o pacote MCDATA_PACKAGE:

Transformar arquivos CSV e RDS para Parquet

A seção transformar do pacote MCDATA_PACKAGE fornece funções para converter arquivos CSV e RDS para o formato Parquet. O Parquet é um formato de arquivo colunar que oferece alta performance, compactação e interoperabilidade.

from mcdata.transformar import csv_to_parquet, rds_to_parquet

csv_to_parquet('/path/to/csv_file.csv', '/path/to/parquet_file.parquet')

rds_to_parquet('/path/to/rds_file.rds', '/path/to/parquet_file.parquet')

Caso exista algum tipo de separador diferente:

csv_to_parquet('/path/to/csv_file.csv', '/path/to/parquet_file.parquet', delimiter = ';')

Neste exemplo, csv_to_parquet e rds_to_parquet são funções que convertem arquivos CSV e RDS, respectivamente, para o formato Parquet. /path/to/csv_file.csv e /path/to/rds_file.rds são os caminhos para os arquivos CSV e RDS que você deseja converter, respectivamente. /path/to/parquet_file.parquet é o caminho onde o arquivo Parquet convertido será salvo.

Manipular tabelas

A seção tabela do pacote MCDATA_PACKAGE fornece uma classe para manipular tabelas pandas. A classe ManiularTabela possui um método process_table que realiza várias operações de limpeza de dados em um DataFrame pandas.

import pandas as pd from mcdata.tabela import ManipularTabela

df = pd.read_csv('/path/to/csv_file.csv')

manipulator = ManipularTabela(df)

processed_df = manipulator.process_table(remove_duplicates=True, null_value_replacement='Unknown', column_mapping={'OldColumnName': 'NewColumnName'}, column_value_mapping={'ColumnName': {OldValueName: 'NewValueName'}})

Neste exemplo, df é um DataFrame pandas que você deseja manipular. remove_duplicates=True remove todas as linhas duplicadas do DataFrame, null_value_replacement='Unknown' substitui todos os valores nulos por 'Unknown', column_mapping={'OldColumnName': 'NewColumnName'} renomeia a coluna 'OldColumnName' para 'NewColumnName', e column_value_mapping={'ColumnName': {OldValueName: 'NewValueName'}} substitui todos os 'OldValueName' na coluna 'ColumnName' por 'NewValueName'.

Por favor, note que remove_duplicates, null_value_replacement, column_mapping e column_value_mapping são parâmetros opcionais. Se você não fornecer um desses parâmetros, o método process_table não realizará a operação correspondente.

Obter dicionários de siglas governamentais

A seção dicionários do pacote MCDATA_PACKAGE fornece funções para retornar siglas de DataFrame gorvenamentais.

from mcdata.dicionarios import uf

state_mapping = uf()

Enviar arquivos para o S3

from mcdata.s3 import S3Uploader

uploader = S3Uploader('YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_BUCKET_NAME')

uploader.upload_file('/path/to/file')

Neste exemplo, YOUR_ACCESS_KEY e YOUR_SECRET_KEY são suas credenciais da AWS e YOUR_BUCKET_NAME é o nome do seu bucket. /path/to/file é o caminho para o arquivo que você deseja enviar para o S3.

Por favor, note que você deve substituir 'YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_BUCKET_NAME' e '/path/to/file' pelas suas credenciais da AWS, o nome do seu bucket e o caminho para o arquivo, respectivamente.

Além disso, se você estiver usando uma sessão temporária, você pode adicionar um aws_session_token ao instanciar a classe S3Uploader: uploader = S3Uploader('YOUR_ACCESS_KEY', 'YOUR_SECRET_KEY', 'YOUR_SESSION_TOKEN', 'YOUR_BUCKET_NAME')

Licença

Este projeto é licenciado sob a Licença MIT - por favor, veja LICENSE para mais detalhes.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mcdata_package-0.0.9.tar.gz (4.8 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

mcdata_package-0.0.9-py3-none-any.whl (5.3 kB view details)

Uploaded Python 3

File details

Details for the file mcdata_package-0.0.9.tar.gz.

File metadata

  • Download URL: mcdata_package-0.0.9.tar.gz
  • Upload date:
  • Size: 4.8 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.11.5

File hashes

Hashes for mcdata_package-0.0.9.tar.gz
Algorithm Hash digest
SHA256 c2e149230fe1e5ce486b0e1b6b3e8d43c8e1c974711f1749a726866a5de024f0
MD5 0097500e36f6e628779d399f028f9ed9
BLAKE2b-256 55349fcd1675db22a515752368feb72a581be181028501d60f99fadd3a6c76c5

See more details on using hashes here.

File details

Details for the file mcdata_package-0.0.9-py3-none-any.whl.

File metadata

  • Download URL: mcdata_package-0.0.9-py3-none-any.whl
  • Upload date:
  • Size: 5.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.2 CPython/3.11.5

File hashes

Hashes for mcdata_package-0.0.9-py3-none-any.whl
Algorithm Hash digest
SHA256 6bae2db7c9cf4e248573d108fde2d70b2136c49962cec05c31941d77530be49c
MD5 eb92b1d978c2bea668adfb2fb46a3246
BLAKE2b-256 e0df4b5b94103f21567b50ad8514351980a65a9112a2c87b3b2675848912c138

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page