Skip to main content

FastETL custom package Apache Airflow provider.

Project description

Logotipo do FastETL. É um canivete tipo suiço com várias peças abertas

Framework fastETL, moderno, versátil, faz quase tudo.


CI Tests

O FastETL é um pacote de plugins do Airflow para construção de pipelines de dados para uma variedade de cenários comuns.

Principais funcionalidades:

  • Replicação de tabelas full ou incremental em bancos de dados SQL Server e Postgres
  • Carga de dados a partir do GSheets e de planilhas na rede Samba/Windows
  • Extração de CSV a partir do SQL
  • Consulta à API do DOU

Este framework é mantido por uma rede de desenvolvedores de diversas equipes do Ministério da Economia e é o resultado acumulado da utilização do Apache Airflow, uma ferramenta livre de código aberto, a partir de 2019.

Para governo: O fastETL é utilizado largamente para replicação de dados acessados via Quartzo (DaaS) do Serpro.

Instalação no Airflow

O FastETL implementa os padrões de plugins do Airflow e para ser instalado basta que ele seja copiado para o diretório plugins no ambiente da instalação do Airflow.

Atualmente o FastETL depende do nosso ambiente do Airflow com Docker definido no repositório airflow2-docker. Caso utilize esse ambiente, o FastETl já vem integrado.

No futuro pretendemos transformá-lo em um plugin independente de um ambiente específico, contendo instruções para instalado em qualquer ambiente. O primeiro passo para isso será documentar as suas dependências.

Testes

A suíte de testes usa contêineres Docker para simular um ambiente completo de uso, inclusive com o Airflow e os bancos de dados. Por isso, para executar os testes, é necessário primeiro instalar o Docker e o docker-compose.

Para quem usa Ubuntu 20.04, basta digitar no terminal:

snap install docker

Para outras versões e sistemas operacionais, consulte a documentação oficial do Docker.

Para construir os contêineres:

make setup

Para rodar os testes execute:

make setup && make tests

Para desmontar o ambiente execute:

make down

Exemplo de uso

A principal funcionalidade do FastETL é o operador DbToDbOperator. Ele copia dados entre os bancos postgres e mssql.

Aqui um exemplo:

from datetime import datetime
from airflow import DAG
from fastetl.operators.db_to_db_operator import DbToDbOperator

default_args = {
    "start_date": datetime(2023, 4, 1),
}

dag = DAG(
    "copy_db_to_db_example",
    default_args=default_args,
    schedule_interval=None,
)


t0 = DbToDbOperator(
    task_id="copy_data",
    source={
        "conn_id": airflow_source_conn_id,
        "schema": source_schema,
        "table": table_name,
    },
    destination={
        "conn_id": airflow_dest_conn_id,
        "schema": dest_schema,
        "table": table_name,
    },
    destination_truncate=True,
    copy_table_comments=True,
    chunksize=10000,
    dag=dag,
)

Mais detalhes sobre os parâmetros e funcionamento do DbToDbOperator nos arquivos:

Como colaborar

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

apache-airflow-providers-fastetl-0.0.3.tar.gz (69.6 kB view details)

Uploaded Source

Built Distribution

File details

Details for the file apache-airflow-providers-fastetl-0.0.3.tar.gz.

File metadata

File hashes

Hashes for apache-airflow-providers-fastetl-0.0.3.tar.gz
Algorithm Hash digest
SHA256 5bb4a331e7f85e25fa01d147f022695e28f9d5257b21936f19c55c8c20aebcbe
MD5 bdde8e14e452c4d9c7dc15f008e0c574
BLAKE2b-256 07c73e786b5c74a442920370cdd7c6b0974cc1cc831c59174e801f724eda36ee

See more details on using hashes here.

File details

Details for the file apache_airflow_providers_fastetl-0.0.3-py3-none-any.whl.

File metadata

File hashes

Hashes for apache_airflow_providers_fastetl-0.0.3-py3-none-any.whl
Algorithm Hash digest
SHA256 07522be8adaad82ae83e4ca09bffffafad9e04ee3d83ae39abee436a05f3044e
MD5 ba677374bd41c7a92cd5b58104ac858f
BLAKE2b-256 39017e8cb4bb28b3887b57c178fe8d638e5ee18346e6591d59dfb60178bced0f

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page