Ingestão de dados
Project description
clarolib - Evoluindo a Biblioteca de validação de dados
Pré Requisitos
- Python 3.x
- Docker e Docker Compose
Introdução
O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.
Essa biblioteca foi criada com os seguintes objetivos:
- Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
- Padronizar métricas e implementações de linhagem de dados
- Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
- Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.
Abaixo estão os passos para criação do ambiente de desenvolvimento:
Criação de Ambiente Virtual Python
Para criar o ambiente virtual, execute os comandos abaixo:
python3 -m venv clarolib_env
source clarolib_env/bin/activate
pip install -r requirements.txt
Executando o Apache Spark localmente com Docker
Acesse a pasta spark
folder no seu terminal e execute o comando abaixo.
Esse será responsável por iniciar a execução do spark localmente.
docker-compose up
Como executar exemplos localmente
Acesse os arquivos de exemplo localizados no diretório code_examples
e execute-os.
Desativando o ambiente virtual
Acesse o diretorio clarolib_env
e execute o seguinte comando:
deactivate
Compilando e executando testes unitários
Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:
flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel
Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mÃnimos de qualidade estão sendo seguidos.
Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
File details
Details for the file ingestion-0.0.42.tar.gz
.
File metadata
- Download URL: ingestion-0.0.42.tar.gz
- Upload date:
- Size: 13.4 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.1 CPython/3.9.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | db86ba01c3e9738dfcdd8c0a615cae8645ae32278f456b6646089939b85ad96e |
|
MD5 | 384fc48d4a90cb6d6286928170ec4b67 |
|
BLAKE2b-256 | a51fb6c02b2d496e3ccc0a2c38f48b170ba087abcc861bfc4341f9ab1fc33af6 |
File details
Details for the file ingestion-0.0.42-py2.py3-none-any.whl
.
File metadata
- Download URL: ingestion-0.0.42-py2.py3-none-any.whl
- Upload date:
- Size: 13.0 kB
- Tags: Python 2, Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/4.0.1 CPython/3.9.5
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | fc9556c752bcc25e5f597ca8034319585b840a3f052672c7a1fb36b8568d7087 |
|
MD5 | b055dc853c6b094b1d257164d0b68ca7 |
|
BLAKE2b-256 | 506af0fe719f34b4ef0e49b3248c5abf9d30f0189e92ba66aaf6ca5be6489a0a |