Ingestão de dados
Project description
clarolib - Evoluindo a Biblioteca de validação de dados
Pré Requisitos
- Python 3.x
- Docker e Docker Compose
Introdução
O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.
Essa biblioteca foi criada com os seguintes objetivos:
- Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
- Padronizar métricas e implementações de linhagem de dados
- Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
- Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.
Abaixo estão os passos para criação do ambiente de desenvolvimento:
Criação de Ambiente Virtual Python
Para criar o ambiente virtual, execute os comandos abaixo:
python3 -m venv clarolib_env
source clarolib_env/bin/activate
pip install -r requirements.txt
Executando o Apache Spark localmente com Docker
Acesse a pasta spark
folder no seu terminal e execute o comando abaixo.
Esse será responsável por iniciar a execução do spark localmente.
docker-compose up
Como executar exemplos localmente
Acesse os arquivos de exemplo localizados no diretório code_examples
e execute-os.
Desativando o ambiente virtual
Acesse o diretorio clarolib_env
e execute o seguinte comando:
deactivate
Compilando e executando testes unitários
Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:
flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel
Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mÃnimos de qualidade estão sendo seguidos.
Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for ingestion-0.0.31-py2.py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 44104ad63ebb1b220bb46de8f24d1d1787f72b1dc8e3573ef786324effcf6954 |
|
MD5 | 7eee20f8711e7bb9661f6b9f1c8574ba |
|
BLAKE2b-256 | fa4608ad7537d375ff1536ee41138f620a7e5692bf5db823d10c51ad1ef12b29 |