Skip to main content

Ingestão de dados

Project description

clarolib - Evoluindo a Biblioteca de validação de dados

Pré Requisitos

  • Python 3.x
  • Docker e Docker Compose

Introdução

O objetivo desse documento é descrever os passos para criação do ambiente de desenvolvimento da biblioteca Clarolib.

Essa biblioteca foi criada com os seguintes objetivos:

  • Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
  • Padronizar métricas e implementações de linhagem de dados
  • Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
  • Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'.

Abaixo estão os passos para criação do ambiente de desenvolvimento:

Criação de Ambiente Virtual Python

Para criar o ambiente virtual, execute os comandos abaixo:

python3 -m venv clarolib_env
source clarolib_env/bin/activate

pip install -r requirements.txt

Executando o Apache Spark localmente com Docker

Acesse a pasta spark folder no seu terminal e execute o comando abaixo. Esse será responsável por iniciar a execução do spark localmente.

docker-compose up

Como executar exemplos localmente

Acesse os arquivos de exemplo localizados no diretório code_examples e execute-os.

Desativando o ambiente virtual

Acesse o diretorio clarolib_env e execute o seguinte comando:

deactivate

Compilando e executando testes unitários

Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:

flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel

Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mínimos de qualidade estão sendo seguidos.

Caso o código criado não esteja de acordo, a esteira não permitirá que esse código seja entregue.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ingestion-0.0.42.tar.gz (13.4 kB view details)

Uploaded Source

Built Distribution

ingestion-0.0.42-py2.py3-none-any.whl (13.0 kB view details)

Uploaded Python 2 Python 3

File details

Details for the file ingestion-0.0.42.tar.gz.

File metadata

  • Download URL: ingestion-0.0.42.tar.gz
  • Upload date:
  • Size: 13.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.9.5

File hashes

Hashes for ingestion-0.0.42.tar.gz
Algorithm Hash digest
SHA256 db86ba01c3e9738dfcdd8c0a615cae8645ae32278f456b6646089939b85ad96e
MD5 384fc48d4a90cb6d6286928170ec4b67
BLAKE2b-256 a51fb6c02b2d496e3ccc0a2c38f48b170ba087abcc861bfc4341f9ab1fc33af6

See more details on using hashes here.

File details

Details for the file ingestion-0.0.42-py2.py3-none-any.whl.

File metadata

  • Download URL: ingestion-0.0.42-py2.py3-none-any.whl
  • Upload date:
  • Size: 13.0 kB
  • Tags: Python 2, Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/4.0.1 CPython/3.9.5

File hashes

Hashes for ingestion-0.0.42-py2.py3-none-any.whl
Algorithm Hash digest
SHA256 fc9556c752bcc25e5f597ca8034319585b840a3f052672c7a1fb36b8568d7087
MD5 b055dc853c6b094b1d257164d0b68ca7
BLAKE2b-256 506af0fe719f34b4ef0e49b3248c5abf9d30f0189e92ba66aaf6ca5be6489a0a

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page