Skip to main content

Ingestão de dados

Project description

clarolib - Evoluindo a Biblioteca de validação de dados

Pré Requisitos

  • Python 3.x
  • Docker e Docker Compose

Introdução

O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.

Essa biblioteca foi criada com os seguintes objetivos:

  • Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
  • Padronizar métricas e implementações de linhagem de dados
  • Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
  • Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.

Abaixo estão os passos para criação do ambiente de desenvolvimento:

Criação de Ambiente Virtual Python

Para criar o ambiente virtual, execute os comandos abaixo:

python3 -m venv clarolib_env
source clarolib_env/bin/activate

pip install -r requirements.txt

Executando o Apache Spark localmente com Docker

Acesse a pasta spark folder no seu terminal e execute o comando abaixo. Esse será responsável por iniciar a execução do spark localmente.

docker-compose up

Como executar exemplos localmente

Acesse os arquivos de exemplo localizados no diretório code_examples e execute-os.

Desativando o ambiente virtual

Acesse o diretorio clarolib_env e execute o seguinte comando:

deactivate

Compilando e executando testes unitários

Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:

flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel

Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mínimos de qualidade estão sendo seguidos.

Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ingestion-0.0.40.tar.gz (13.4 kB view hashes)

Uploaded Source

Built Distribution

ingestion-0.0.40-py2.py3-none-any.whl (13.0 kB view hashes)

Uploaded Python 2 Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page