User-friendly PySpark helpers for Microsoft Fabric Lakehouses and Warehouses

These details have been verified by PyPI

Project links

GitHub Statistics

Maintainers

These details have not been verified by PyPI

Project description

fabrictools

Bibliotheque Python pour simplifier le travail de donnees dans Microsoft Fabric.
Vous utilisez des fonctions courtes pour lire, nettoyer, fusionner et publier vos tables, sans gerer des chemins techniques complexes.

Table des matieres

Pourquoi utiliser fabrictools
Prerequis
Installation
Premiers pas (5 minutes)
Tutoriel interactif : projet fictif NovaRetail
Index rapide : toutes les fonctions publiques
Transform DataFrame (filtre / jointure)
FAQ
Support
Ressources mainteneur
Licence

Pourquoi utiliser fabrictools

Vous passez le nom du Lakehouse/Warehouse, pas une URL longue.
Vous avez des operations courantes pretes a l'emploi (read, write, merge, clean).
Vous pouvez lancer un pipeline de preparation en plusieurs etapes claires.
Vous disposez d’aides generiques sur DataFrame (filtrer par liste de valeurs, jointure avec colonnes prefixees).
Vous gagnez du temps avec des fonctions d'orchestration (table unique ou bulk).
Vous gardez un code notebook lisible pour toute l'equipe.

Prerequis

Python >= 3.9
Un environnement Microsoft Fabric (recommande)
Un notebook attache a un Lakehouse pour les operations Lakehouse

Bon a savoir :

Dans Fabric, pyspark et delta-spark sont deja disponibles.
Hors Fabric, certaines fonctions de resolution de chemins peuvent echouer (ex: absence de notebookutils).

Installation

# Cas standard (notebook Fabric)
pip install fabrictools

# Cas local avec Spark + Delta
pip install "fabrictools[spark]"

# Option visualisation (graphiques pour scan qualite)
pip install "fabrictools[visualization]"

Premiers pas (5 minutes)

import fabrictools as ft

# Lire une table/fichier depuis un Lakehouse
df = ft.read_lakehouse("BronzeLakehouse", "dbo/orders")
df.show(5)

Ensuite, vous pouvez faire :

Nettoyer les donnees (clean_data)
Ajouter des metadonnees (add_silver_metadata)
Ecrire vers un Lakehouse cible (write_lakehouse)

Tutoriel interactif : projet fictif NovaRetail

Objectif : partir de donnees brutes de ventes et finir avec des tables preparees pour le reporting.

Vue d'ensemble (visuel)

flowchart LR
    sourceLakehouse["BronzeLakehouse (brut)"] --> cleanStep["Nettoyage"]
    cleanStep --> silverStep["Enrichissement Silver"]
    silverStep --> curatedLakehouse["SilverLakehouse (curated)"]
    curatedLakehouse --> preparedStep["Preparation semantique"]
    preparedStep --> preparedLakehouse["PreparedLakehouse"]
    preparedLakehouse --> warehouseStep["Warehouse + BI"]

Etape 1 - Lire les ventes brutes

import fabrictools as ft

orders_raw = ft.read_lakehouse("BronzeLakehouse", "dbo/orders_raw")
orders_raw.show(5)

Etape 2 - Nettoyer les donnees

orders_clean = ft.clean_data(orders_raw)

Etape 3 - Enrichir en metadonnees Silver

orders_silver = ft.add_silver_metadata(
    orders_clean,
    source_lakehouse_name="BronzeLakehouse",
    source_relative_path="dbo/orders_raw",
    source_layer="bronze",
)

Etape 4 - Ecrire en Silver

ft.write_lakehouse(
    orders_silver,
    lakehouse_name="SilverLakehouse",
    relative_path="dbo/orders",
    mode="overwrite",
    partition_by=["year", "month", "day"],
)

Etape 5 - Scanner la qualite

quality = ft.scan_data_errors(orders_silver, include_samples=True, display_results=True)
quality["summary_df"].show(truncate=False)

Etape 6 - Fusion incrementale (upsert)

orders_updates = ft.read_lakehouse("BronzeLakehouse", "dbo/orders_updates")

ft.merge_lakehouse(
    source_df=orders_updates,
    lakehouse_name="SilverLakehouse",
    relative_path="dbo/orders",
    merge_condition="src.order_id = tgt.order_id",
)

Etape 7 - Ecriture dans un Warehouse

ft.write_warehouse(
    df=orders_silver,
    warehouse_name="RetailWarehouse",
    table="dbo.orders",
    mode="overwrite",
)

Etape 8 - Pipeline prepare (table unique)

prepared_df = ft.prepare_and_write_data(
    source_lakehouse_name="SilverLakehouse",
    source_relative_path="Tables/dbo/orders",
    target_lakehouse_name="PreparedLakehouse",
    target_relative_path="Tables/dbo/orders_prepared",
    mode="overwrite",
)

Etape 9 - Pipeline prepare (bulk)

bulk_result = ft.prepare_and_write_all_tables(
    source_lakehouse_name="SilverLakehouse",
    target_lakehouse_name="PreparedLakehouse",
    include_schemas=["dbo"],
    continue_on_error=True,
)
print(bulk_result["successful_tables"], bulk_result["failed_tables"])

Etape 10 - Dimensions pour reporting

dims = ft.generate_dimensions(
    lakehouse_name="PreparedLakehouse",
    warehouse_name="RetailWarehouse",
    include_date=True,
    include_country=True,
    include_city=True,
)

Index rapide : toutes les fonctions publiques

Chaque fonction ci-dessous est exportee directement depuis import fabrictools as ft.

Lakehouse

`read_lakehouse`

df = ft.read_lakehouse("BronzeLakehouse", "dbo/customers")

`write_lakehouse`

ft.write_lakehouse(df, "SilverLakehouse", "dbo/customers", mode="overwrite")

`merge_lakehouse`

ft.merge_lakehouse(
    source_df=df_updates,
    lakehouse_name="SilverLakehouse",
    relative_path="dbo/customers",
    merge_condition="src.customer_id = tgt.customer_id",
)

`delete_all_lakehouse_tables`

ft.delete_all_lakehouse_tables(
    lakehouse_name="SandboxLakehouse",
    include_schemas=["dbo"],
    dry_run=True,
)

`clean_data`

df_clean = ft.clean_data(df)

`add_silver_metadata`

df_silver = ft.add_silver_metadata(df_clean, "BronzeLakehouse", "dbo/customers_raw")

`scan_data_errors`

scan = ft.scan_data_errors(df_silver, include_samples=True, display_results=False)
scan["summary_df"].show()

`clean_and_write_data`

df_out = ft.clean_and_write_data(
    source_lakehouse_name="BronzeLakehouse",
    source_relative_path="dbo/customers_raw",
    target_lakehouse_name="SilverLakehouse",
    target_relative_path="dbo/customers",
    mode="overwrite",
)

`clean_and_write_all_tables`

result = ft.clean_and_write_all_tables(
    source_lakehouse_name="BronzeLakehouse",
    target_lakehouse_name="SilverLakehouse",
    include_schemas=["dbo"],
    continue_on_error=True,
)

Warehouse

`read_warehouse`

df_wh = ft.read_warehouse("RetailWarehouse", "SELECT TOP 100 * FROM dbo.orders")

`write_warehouse`

ft.write_warehouse(df_wh, warehouse_name="RetailWarehouse", table="dbo.orders_snapshot", mode="append")

Dimensions

`build_dimension_date`

dim_date = ft.build_dimension_date(start_date="2020-01-01", end_date="2030-12-31")

`build_dimension_country`

dim_country = ft.build_dimension_country(countries_limit=100)

`build_dimension_city`

dim_city = ft.build_dimension_city(
    regions=["Europe"],
    countries=["FR", "DEU", "Belgium"],
)

`generate_dimensions`

all_dims = ft.generate_dimensions(
    lakehouse_name="PreparedLakehouse",
    warehouse_name="RetailWarehouse",
    include_date=True,
    include_country=True,
    include_city=True,
)

Source -> Prepared

`snapshot_source_schema`

schema_hash = ft.snapshot_source_schema("SilverLakehouse", "Tables/dbo/orders")

`resolve_columns`

mappings = ft.resolve_columns(
    df=orders_silver,
    source_lakehouse_name="SilverLakehouse",
    schema_hash=schema_hash,
)

`transform_to_prepared`

prepared_df = ft.transform_to_prepared(
    df=orders_silver,
    resolved_mappings=mappings,
    source_lakehouse_name="SilverLakehouse",
)

`write_prepared_table`

ft.write_prepared_table(
    df=prepared_df,
    resolved_mappings=mappings,
    target_lakehouse_name="PreparedLakehouse",
    target_relative_path="Tables/dbo/orders_prepared",
    mode="overwrite",
)

`generate_prepared_aggregations`

agg_tables = ft.generate_prepared_aggregations(
    source_lakehouse_name="SilverLakehouse",
    target_lakehouse_name="PreparedLakehouse",
    target_relative_path="Tables/dbo/orders_prepared",
    resolved_mappings=mappings,
)

`publish_semantic_model`

publish_result = ft.publish_semantic_model(
    target_lakehouse_name="PreparedLakehouse",
    agg_tables=agg_tables,
    resolved_mappings=mappings,
    semantic_workspace="<workspace-id-ou-nom>",
    semantic_model_name="novaretail_dataset",
)

`prepare_and_write_data`

one_table = ft.prepare_and_write_data(
    source_lakehouse_name="SilverLakehouse",
    source_relative_path="Tables/dbo/orders",
    target_lakehouse_name="PreparedLakehouse",
    target_relative_path="Tables/dbo/orders_prepared",
)

`prepare_and_write_all_tables`

all_tables = ft.prepare_and_write_all_tables(
    source_lakehouse_name="SilverLakehouse",
    target_lakehouse_name="PreparedLakehouse",
    include_schemas=["dbo"],
    continue_on_error=True,
)

Transform (DataFrame)

Helpers reutilisables DataFrame → DataFrame (notebooks, Bronze/Silver/Gold). Pour merge_dataframes, le prefixe des colonnes ajoutees est deduit du nom de la variable join_df a l’appel (ou join_prefix=...) ; les suffixes sont normalises (snake_case, comme clean_data). Pas besoin de .alias() Spark sur le DataFrame de droite.

`filter_by_value_list`

Filtre sur une colonne et une liste de valeurs : pas de cast ; trim uniquement si la colonne est de type chaine ; les str dans la liste sont strip()’es. Avec exclude=True (defaut), les lignes dont la valeur est dans la liste sont exclues.

df2 = ft.filter_by_value_list(df, "Compte", ("70830000", "70840000"), exclude=True)

`merge_dataframes`

Joint main a join_df sur une ou plusieurs paires de cles (colonne_main, colonne_droite) ; apporte les colonnes listees dans join_columns, renommees en {prefix_snake}_{colonne_snake_unique} (prefixe = nom de variable projets ci-dessous, ou join_prefix="...").

out = ft.merge_dataframes(
    main=detail,
    join_df=projets,
    join_columns=["Client", "Type projet", "Nom client"],
    keys=[("Code projet", "ID projet")],
    how="left",
)
# Ex. colonnes : projets_client, projets_type_projet, projets_nom_client

FAQ

1) Est-ce que je peux utiliser fabrictools sans Microsoft Fabric ?

Partiellement oui. Les fonctions purement Spark peuvent marcher en local avec fabrictools[spark], mais les fonctions de resolution de chemins Lakehouse dependent de notebookutils (disponible dans Fabric).

2) Y a-t-il une commande CLI (`fabrictools ...`) ?

Non. L'usage est en Python, via import fabrictools as ft.

3) Plotly est-il obligatoire ?

Non. C'est utile pour les graphiques de scan_data_errors. Sans Plotly, vous gardez la partie tabulaire.

4) Comment choisir entre `clean_and_write_data` et `clean_and_write_all_tables` ?

clean_and_write_data : une table cible
clean_and_write_all_tables : plusieurs tables en lot

5) `delete_all_lakehouse_tables` est-il dangereux ?

Oui, c'est une action destructive. Commencez avec dry_run=True pour verifier la liste avant suppression.

6) Je debute : quel chemin minimum recommandez-vous ?

read_lakehouse -> clean_data -> add_silver_metadata -> write_lakehouse.

Support

Ouvrir une issue GitHub : Issues
Consulter le depot : Repository

Pour aider rapidement, partagez :

la fonction utilisee
un exemple de parametres
le message d'erreur complet

Ressources mainteneur

Guide de publication PyPI : docs/PYPI_PUBLISH.md

Licence

MIT

Project details

These details have been verified by PyPI

Project links

GitHub Statistics

Maintainers

Willy_Kinfoussia

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.9.6

May 7, 2026

0.9.5

May 7, 2026

0.9.4

May 6, 2026

0.9.3

May 6, 2026

0.9.2

May 6, 2026

0.9.1

May 6, 2026

0.9.0

May 6, 2026

0.8.7

May 5, 2026

0.8.6

May 5, 2026

0.8.5

May 5, 2026

0.8.4

May 5, 2026

0.8.3

May 4, 2026

0.8.2

May 4, 2026

0.8.1

May 4, 2026

0.8.0

May 4, 2026

0.7.17

Apr 30, 2026

0.7.16

Apr 28, 2026

0.7.15

Apr 24, 2026

0.7.14

Apr 24, 2026

0.7.13

Apr 24, 2026

0.7.12

Apr 24, 2026

0.7.11

Apr 24, 2026

0.7.10

Apr 24, 2026

0.7.9

Apr 23, 2026

0.7.8

Apr 23, 2026

0.7.7

Apr 23, 2026

0.7.6

Apr 22, 2026

0.7.5

Apr 22, 2026

0.7.4

Apr 22, 2026

0.7.3

Apr 22, 2026

0.7.2

Apr 22, 2026

0.7.1

Apr 22, 2026

0.7.0

Apr 21, 2026

0.6.23

Apr 21, 2026

0.6.22

Apr 21, 2026

0.6.21

Apr 21, 2026

0.6.20

Apr 21, 2026

0.6.19

Apr 21, 2026

0.6.18

Apr 21, 2026

0.6.17

Apr 21, 2026

0.6.16

Apr 21, 2026

0.6.15

Apr 20, 2026

0.6.13

Apr 20, 2026

0.6.12

Apr 20, 2026

0.6.11

Apr 20, 2026

0.6.10

Apr 20, 2026

0.6.9

Apr 15, 2026

0.6.8

Apr 15, 2026

0.6.7

Apr 15, 2026

0.6.6

Apr 15, 2026

0.6.5

Apr 15, 2026

0.6.4

Apr 15, 2026

0.6.3

Apr 15, 2026

0.6.1

Apr 15, 2026

0.6.0

Apr 14, 2026

0.5.26

Apr 14, 2026

0.5.25

Apr 14, 2026

0.5.24

Apr 13, 2026

0.5.23

Apr 13, 2026

0.5.22

Apr 13, 2026

0.5.21

Apr 13, 2026

0.5.20

Apr 10, 2026

0.5.19

Apr 10, 2026

0.5.18

Apr 10, 2026

0.5.17

Apr 10, 2026

0.5.16

Apr 10, 2026

0.5.15

Apr 10, 2026

0.5.14

Apr 10, 2026

0.5.13

Apr 10, 2026

This version

0.5.12

Apr 10, 2026

0.5.11

Apr 10, 2026

0.5.10

Apr 10, 2026

0.5.9

Mar 24, 2026

0.5.8

Mar 24, 2026

0.5.7

Mar 23, 2026

0.5.6

Mar 23, 2026

0.5.5

Mar 23, 2026

0.5.4

Mar 23, 2026

0.5.3

Mar 23, 2026

0.5.2

Mar 23, 2026

0.5.1

Mar 23, 2026

0.5.0

Mar 23, 2026

0.4.14

Mar 23, 2026

0.4.13

Mar 23, 2026

0.4.12

Mar 20, 2026

0.4.11

Mar 20, 2026

0.4.10

Mar 20, 2026

0.4.9

Mar 20, 2026

0.4.8

Mar 20, 2026

0.4.7

Mar 20, 2026

0.4.6

Mar 20, 2026

0.4.5

Mar 20, 2026

0.4.4

Mar 20, 2026

0.4.3

Mar 19, 2026

0.4.2

Mar 19, 2026

0.4.1

Mar 19, 2026

0.4.0

Mar 19, 2026

0.3.2

Mar 19, 2026

0.3.1

Mar 18, 2026

0.2.5

Mar 18, 2026

0.2.4

Mar 18, 2026

0.2.3

Mar 18, 2026

0.2.2

Mar 18, 2026

0.2.1

Mar 18, 2026

0.1.1

Mar 18, 2026

0.1.0

Mar 18, 2026

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

fabrictools-0.5.12.tar.gz (46.4 kB view details)

Uploaded Apr 10, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

fabrictools-0.5.12-py3-none-any.whl (54.8 kB view details)

Uploaded Apr 10, 2026 Python 3

File details

Details for the file fabrictools-0.5.12.tar.gz.

File metadata

Download URL: fabrictools-0.5.12.tar.gz
Upload date: Apr 10, 2026
Size: 46.4 kB
Tags: Source
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for fabrictools-0.5.12.tar.gz
Algorithm	Hash digest
SHA256	`b4f835e49aafcdb154d6701e404d56823f3bc0157cb37083e14f4261de149860`
MD5	`a4270deb30f7a67713b2b9eaf25bba74`
BLAKE2b-256	`1c53e9cb3296ca366372df7b27fc26d2761ea95290f64050c2ac2bc3bf3c12fc`

See more details on using hashes here.

Provenance

The following attestation bundles were made for fabrictools-0.5.12.tar.gz:

Publisher: publish.yml on willykinfoussia/FabricPackage

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: fabrictools-0.5.12.tar.gz
- Subject digest: b4f835e49aafcdb154d6701e404d56823f3bc0157cb37083e14f4261de149860
- Sigstore transparency entry: 1271226056
- Sigstore integration time: Apr 10, 2026
Source repository:
- Permalink: willykinfoussia/FabricPackage@0cb0e437b0f592a5e91ad2df47b6b732907ebf66
- Branch / Tag: refs/tags/v0.5.12
- Owner: https://github.com/willykinfoussia
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: publish.yml@0cb0e437b0f592a5e91ad2df47b6b732907ebf66
- Trigger Event: push

File details

Details for the file fabrictools-0.5.12-py3-none-any.whl.

File metadata

Download URL: fabrictools-0.5.12-py3-none-any.whl
Upload date: Apr 10, 2026
Size: 54.8 kB
Tags: Python 3
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for fabrictools-0.5.12-py3-none-any.whl
Algorithm	Hash digest
SHA256	`105270cf41f049ab58c73e3ca60ad2693b31efa9067461eb446798f2dfbebd07`
MD5	`69e913cd16f116297dae0d712eff526e`
BLAKE2b-256	`6a21534432594388b9beb33bf39f4fa64eefddf7ca119d2db2af56895e80f148`

See more details on using hashes here.

Provenance

The following attestation bundles were made for fabrictools-0.5.12-py3-none-any.whl:

Publisher: publish.yml on willykinfoussia/FabricPackage

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: fabrictools-0.5.12-py3-none-any.whl
- Subject digest: 105270cf41f049ab58c73e3ca60ad2693b31efa9067461eb446798f2dfbebd07
- Sigstore transparency entry: 1271226507
- Sigstore integration time: Apr 10, 2026
Source repository:
- Permalink: willykinfoussia/FabricPackage@0cb0e437b0f592a5e91ad2df47b6b732907ebf66
- Branch / Tag: refs/tags/v0.5.12
- Owner: https://github.com/willykinfoussia
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: publish.yml@0cb0e437b0f592a5e91ad2df47b6b732907ebf66
- Trigger Event: push

fabrictools 0.5.12

Navigation

Verified details

Project links

GitHub Statistics

Maintainers

Unverified details

Meta

Classifiers

Project description

fabrictools

Table des matieres

Pourquoi utiliser fabrictools

Prerequis

Installation

Premiers pas (5 minutes)

Tutoriel interactif : projet fictif NovaRetail

Vue d'ensemble (visuel)

Etape 1 - Lire les ventes brutes

Etape 2 - Nettoyer les donnees

Etape 3 - Enrichir en metadonnees Silver

Etape 4 - Ecrire en Silver

Etape 5 - Scanner la qualite

Etape 6 - Fusion incrementale (upsert)

Etape 7 - Ecriture dans un Warehouse

Etape 8 - Pipeline prepare (table unique)

Etape 9 - Pipeline prepare (bulk)

Etape 10 - Dimensions pour reporting

Index rapide : toutes les fonctions publiques

Lakehouse

read_lakehouse

write_lakehouse

merge_lakehouse

delete_all_lakehouse_tables

clean_data

add_silver_metadata

scan_data_errors

clean_and_write_data

clean_and_write_all_tables

Warehouse

read_warehouse

write_warehouse

Dimensions

build_dimension_date

build_dimension_country

build_dimension_city

generate_dimensions

Source -> Prepared

snapshot_source_schema

resolve_columns

transform_to_prepared

write_prepared_table

generate_prepared_aggregations

publish_semantic_model

prepare_and_write_data

prepare_and_write_all_tables

Transform (DataFrame)

filter_by_value_list

merge_dataframes

FAQ

1) Est-ce que je peux utiliser fabrictools sans Microsoft Fabric ?

2) Y a-t-il une commande CLI (fabrictools ...) ?

3) Plotly est-il obligatoire ?

4) Comment choisir entre clean_and_write_data et clean_and_write_all_tables ?

5) delete_all_lakehouse_tables est-il dangereux ?

6) Je debute : quel chemin minimum recommandez-vous ?

Support

Ressources mainteneur

Licence

Project details

Verified details

Project links

GitHub Statistics

Maintainers

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

`read_lakehouse`

`write_lakehouse`

`merge_lakehouse`

`delete_all_lakehouse_tables`

`clean_data`

`add_silver_metadata`

`scan_data_errors`

`clean_and_write_data`

`clean_and_write_all_tables`

`read_warehouse`

`write_warehouse`

`build_dimension_date`

`build_dimension_country`

`build_dimension_city`

`generate_dimensions`

`snapshot_source_schema`

`resolve_columns`

`transform_to_prepared`

`write_prepared_table`

`generate_prepared_aggregations`

`publish_semantic_model`

`prepare_and_write_data`

`prepare_and_write_all_tables`

`filter_by_value_list`

`merge_dataframes`

2) Y a-t-il une commande CLI (`fabrictools ...`) ?

4) Comment choisir entre `clean_and_write_data` et `clean_and_write_all_tables` ?

5) `delete_all_lakehouse_tables` est-il dangereux ?