Ingestão de dados
Project description
clarolib - Evoluindo a Biblioteca de validação de dados
Pré Requisitos
- Python 3.x
- Docker e Docker Compose
Introdução
O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.
Essa biblioteca foi criada com os seguintes objetivos:
- Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
- Padronizar métricas e implementações de linhagem de dados
- Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
- Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.
Abaixo estão os passos para criação do ambiente de desenvolvimento:
Criação de Ambiente Virtual Python
Para criar o ambiente virtual, execute os comandos abaixo:
python3 -m venv clarolib_env
source clarolib_env/bin/activate
pip install -r requirements.txt
Executando o Apache Spark localmente com Docker
Acesse a pasta spark
folder no seu terminal e execute o comando abaixo.
Esse será responsável por iniciar a execução do spark localmente.
docker-compose up
Como executar exemplos localmente
Acesse os arquivos de exemplo localizados no diretório code_examples
e execute-os.
Desativando o ambiente virtual
Acesse o diretorio clarolib_env
e execute o seguinte comando:
deactivate
Compilando e executando testes unitários
Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:
flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel
Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mÃnimos de qualidade estão sendo seguidos.
Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for ingestion-0.0.32-py2.py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | b60bb9b51323c9ab3c22c0d4e92f4ea2e3a87f04190046483e2bbae8120c8905 |
|
MD5 | 6d9df88ee4183bdebb3ed7d610554022 |
|
BLAKE2b-256 | c3d22bdbba1e83696df8009e46e37d262f925cc7c01f472d683b947b4f2fdfdc |