Ingestão de dados
Project description
clarolib - Evoluindo a Biblioteca de validação de dados
Pré Requisitos
- Python 3.x
- Docker e Docker Compose
Introdução
O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.
Essa biblioteca foi criada com os seguintes objetivos:
- Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
- Padronizar métricas e implementações de linhagem de dados
- Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
- Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.
Abaixo estão os passos para criação do ambiente de desenvolvimento:
Criação de Ambiente Virtual Python
Para criar o ambiente virtual, execute os comandos abaixo:
python3 -m venv clarolib_env
source clarolib_env/bin/activate
pip install -r requirements.txt
Executando o Apache Spark localmente com Docker
Acesse a pasta spark
folder no seu terminal e execute o comando abaixo.
Esse será responsável por iniciar a execução do spark localmente.
docker-compose up
Como executar exemplos localmente
Acesse os arquivos de exemplo localizados no diretório code_examples
e execute-os.
Desativando o ambiente virtual
Acesse o diretorio clarolib_env
e execute o seguinte comando:
deactivate
Compilando e executando testes unitários
Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:
flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel
Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mÃnimos de qualidade estão sendo seguidos.
Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for ingestion-0.0.41-py2.py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 532ea60b33f6f63784c80d5fa3bb7a284bb7635c2caebc25f084621348fdfebc |
|
MD5 | c02ea13938ea5b670a64facdc82a84c0 |
|
BLAKE2b-256 | 62883673c664081b9b98eb999d5da804dd6b7cb62b7d1fcfe29e5fc006fbf7a0 |