Functions needed for datateam MOSS (municipality of Amsterdam)

Project description

1. Introductie

In deze package staan functies die door het datateam MOSS+ van de gemeente Amsterdam gebruikt worden in de data pipelines. Aangezien dit datateam 4 directies bedient, zijn er dezelfde functies die voor verschillende projecten gebruikt worden. Om te zorgen dat er geen wildgroei ontstaat van losse functies of verschillende versies van dezelfde functies is er gekozen om een package te maken die geïmporteerd kan worden.

1.1 Disclaimers

Deze repo zit in de Proof of Concept fase

2. Vereiste

Binnen het cluster Digitalisering, Innovatie en Informatie (DII) zit verschillende directies; waaronder de directie Data. Binnen de directie data is er in besloten om het datalandschap te moderniseren. Hiervoor is er gekozen om over te stappen naar Databricks. De functies die jij aanroept via deze packages zijn gemaakt/getest op de Azure Databricks omgeving. Andere omgevingen of andere, niet hieronder genoemde, clusterconfiguraties worden (nog) niet gesupport.

2.1 Geteste Databricks Cluster Configuraties

Cluster Configuratie nr	Access mode	Node	Databricks Runtime version	Worker type	Min Workers	Max Workers	Driver type
cluster_configuratie_1	Single User	Multi	Runtime: 13.3 LTS (Scala 2.12, Spark 3.4.1)	Standard_DS3_v2 (14gb Memory, 4 Cores)	2	8	Standard_DS3_v2 (14GB Memory, 4 Cores)
cluster_configuratie_2	Single User	Single	Runtime: 14.2 (includes Apache Spark 3.5.0, Scala 2.12)	Standard_DS3_v2 (14gb Memory, 4 Cores)	1	1	Standard_DS3_v2 (14GB Memory, 4 Cores)

3. Overzicht Functionaliteiten

3.1 -> Algemene functie
3.2 -> Reversed modeling voor logische modellen

3.1 Algemene functies

Op dit moment zijn er verschillende functies beschikbaar.

get_catalog()
clean_colum_names(df.columns) # schoont kolomnamen op
clean_dataframe(df: DataFrame) # schoont een dataframe op
del_meerdere_tabellen_catalog(catalog: str, schema: str, tabellen_filter: str, uitsluiten_tabellen:str = None) # verwijder meerdere tabellen uit de catalogus.
rename_multiple_columns(df, {'oude_naam': 'nieuwe_naam', 'oude_naam_2': 'nieuwe_naam_2'}) # deze hernoemt meerdere kolommen
check_nrow_tabel_vs_distinct_id(tabelnaam: str, id: str) # Controleert of het aantal rijen overeenkomt met het aantal unieke ID's in de opgegeven kolom.
controle_unieke_waarden_kolom(df: DataFrame, kolom: str) #Controleert of alle waarden in een specifieke kolom uniek zijn in het gegeven DataFrame.
convert_datetime_format(input_format): # Converteert het opmaakoptie voor datum en tijd van het datetime (format)  naar het PySpark format.
tijdzone_amsterdam(tijdformaat="%Y-%m-%d %H:%M:%S", date_string_timestamp="timestamp"): #Haalt de huidige tijd op en converteert deze naar het opgegeven tijdsformaat en de tijdzone van Amsterdam.
bepaal_kolom_volgorde(df: DataFrame, gewenste_kolom_volgorde: list) -> DataFrame: #Bepaalt de volgorde van kolommen in een DataFrame op basis van de opgegeven gewenste volgorde.
voeg_willekeurig_toe_en_hash_toe(df: DataFrame, business_key: str, naam_id: str) # Neemt de naam van een kolom als invoer aan, veronderstelt dat het een gehashte waarde bevat,
voegt aan elke waarde een willekeurig woord of getal toe en maakt een nieuwe hash..
maak_onbekende_dimensie(df, naam_bk, naam_id="", uitzonderings_kolommen=[]) # Maakt een nieuwe DataFrame met een record voor ontbrekende waarden in een dimensietabel.
vul_lege_cellen_in(df: DataFrame, uitzonderings_kolommen: list = []) #Vult lege cellen in een DataFrame in met standaardwaarden, behalve voor de opgegeven uitzonderingskolommen.

3.2 Reversed modeling voor logische modellen

Gebruik

dataset = Dataset(
    catalog='catalog_name', # bijv. 'dpms_dev'
    database='schema_name', # bijv. 'silver'
    project_prefixes=['prefix_'], # bijv. 'sport_'
    exclude=['test'] 
)

dataset.print_eraser_code()
dataset.print_drawio_code()

Samenvatting

Deze code omvat reversed modeling; het geeft de input voor tools voor visuele logische modellen op basis van bestaande tabellen en kolomnamen in Databricks.

1. Het doel van deze code

Deze code geeft in tekstvorm de input van een visueel logisch model in Eraser.io of DrawIO. Dit maakt reversed modeling mogelijk: eerst worden tabellen in Databricks gemaakt, daarna leidt deze code het model daaruit af. Dit maakt het modelleerproces efficienter.

2. Hoe de code werkt en onderliggende aannames

De code kijkt binnen een catalog (bv. 'dpms_dev') en binnen een database (bv 'silver') en dan weer binnen een door de eindgebruiker gedefinieerde naam voor een project (bv 'amis' in de tabelnaam) naar een set tabellen en kolomnamen. Dit resulteert in de volgende metadata:

tabellen met kolommen met namen en datatypes: deze corresponderen exact met Databricks
de relaties tussen die tabellen. Hier zijn enkele aannames gedaan:
- Er is sprake van een relatie tussen 2 tabellen, als ze beide een kolom met dezelfde naam hebben
- De kardinaliteit (bv. one-to-many) wordt afgeleid van de unieke waarden in deze kolommen. Bijvoorbeeld: voor account_id in tabel 1 is de COUNT gelijk aan de COUNT DISTINCT: per rij is er een unieke account_id, dus dit is een one-to??? relatie. In tabel 2 is de COUNT van account_id hoger dan de COUNT DISTINCT: er is geen unieke id per rij. Dit maakt een one-to-many relatie.

3. Ondersteuning voor tools

Deze tools worden momenteel ondersteund (dit kan in de toekomst nog uitbreiden):

Eraser.IO (ERD Schema from code)
DrawIO (CREATE TABLE statement)

4. Toekomstige features

Deze features staan op de backlog:

Een lijst van project prefixes ingeven
Project prefixen leeg laten, zodat de hele database (bv. zilveren laag) wordt uitgelezen """

Project details

Release history Release notifications | RSS feed

0.2.22

Apr 29, 2026

0.2.21

Apr 29, 2026

0.2.20

Apr 28, 2026

0.2.19

Apr 24, 2026

This version

0.2.18

Apr 24, 2026

0.2.17

Apr 23, 2026

0.2.16

Apr 10, 2026

0.2.15

Apr 9, 2026

0.2.14

Mar 27, 2026

0.2.13

Mar 19, 2026

0.2.12

Mar 19, 2026

0.2.11

Mar 18, 2026

0.2.10

Mar 18, 2026

0.2.9

Mar 16, 2026

0.2.8

Mar 10, 2026

0.2.7

Feb 9, 2026

0.2.6

Feb 3, 2026

0.2.5

Jan 26, 2026

0.2.4

Jan 23, 2026

0.2.3

Jan 19, 2026

0.2.2

Jan 19, 2026

0.2.1

Jan 16, 2026

0.2.0

Jan 8, 2026

0.1.9

Jan 8, 2026

0.1.8

Jan 6, 2026

0.1.7

Dec 19, 2025

0.1.6

Dec 19, 2025

0.1.5

Dec 12, 2025

0.1.4

Dec 12, 2025

0.1.3

Dec 12, 2025

0.1.2

Dec 12, 2025

0.1.1

Dec 11, 2025

0.1.0

Nov 17, 2025

0.0.99

Nov 14, 2025

0.0.98

Aug 5, 2025

0.0.97

Dec 13, 2024

0.0.96

Nov 22, 2024

0.0.95

Nov 19, 2024

0.0.94

Nov 12, 2024

0.0.93

Nov 7, 2024

0.0.92

Nov 7, 2024

0.0.91

Nov 5, 2024

0.0.90

Oct 29, 2024

0.0.89

Sep 30, 2024

0.0.88

Sep 30, 2024

0.0.87

Sep 17, 2024

0.0.86

Sep 17, 2024

0.0.85

Sep 17, 2024

0.0.84

Sep 17, 2024

0.0.83

Sep 17, 2024

0.0.82

Sep 17, 2024

0.0.81

Sep 17, 2024

0.0.80

Sep 2, 2024

0.0.79

Jul 5, 2024

0.0.78

Jul 3, 2024

0.0.77

Jun 27, 2024

0.0.76

Jun 21, 2024

0.0.75

Jun 21, 2024

0.0.74

Apr 8, 2024

0.0.73

Apr 8, 2024

0.0.72

Apr 8, 2024

0.0.71

Apr 5, 2024

0.0.70

Mar 28, 2024

0.0.69

Mar 25, 2024

0.0.68

Mar 25, 2024

0.0.67

Mar 25, 2024

0.0.66

Mar 21, 2024

0.0.65

Mar 21, 2024

0.0.64

Mar 18, 2024

0.0.63

Mar 7, 2024

0.0.62

Mar 6, 2024

0.0.61

Mar 5, 2024

0.0.60

Mar 4, 2024

0.0.59

Mar 4, 2024

0.0.58

Mar 4, 2024

0.0.57

Feb 27, 2024

0.0.56

Feb 26, 2024

0.0.55

Feb 22, 2024

0.0.54

Feb 21, 2024

0.0.53

Feb 21, 2024

0.0.52

Feb 19, 2024

0.0.51

Feb 19, 2024

0.0.50

Feb 19, 2024

0.0.49

Feb 19, 2024

0.0.48

Feb 19, 2024

0.0.47

Feb 19, 2024

0.0.46

Feb 19, 2024

0.0.45

Feb 16, 2024

0.0.44

Feb 16, 2024

0.0.43

Feb 15, 2024

0.0.42

Feb 14, 2024

0.0.41

Feb 12, 2024

0.0.40

Feb 8, 2024

0.0.39

Feb 5, 2024

0.0.38

Feb 5, 2024

0.0.37

Feb 5, 2024

0.0.36

Feb 5, 2024

0.0.35

Feb 5, 2024

0.0.33

Feb 5, 2024

0.0.32

Jan 31, 2024

0.0.31

Jan 31, 2024

0.0.29

Jan 31, 2024

0.0.28

Jan 29, 2024

0.0.27

Jan 29, 2024

0.0.26

Jan 29, 2024

0.0.25

Jan 29, 2024

0.0.24

Jan 25, 2024

0.0.23

Jan 11, 2024

0.0.22

Jan 11, 2024

0.0.20

Jan 10, 2024

0.0.19

Jan 10, 2024

0.0.18

Jan 10, 2024

0.0.17

Jan 10, 2024

0.0.16

Jan 5, 2024

0.0.15

Dec 19, 2023

0.0.14

Dec 19, 2023

0.0.13

Dec 19, 2023

0.0.12

Dec 19, 2023

0.0.11

Dec 18, 2023

0.0.10

Dec 4, 2023

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

datateam_moss-0.2.18.tar.gz (46.0 kB view details)

Uploaded Apr 24, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

datateam_moss-0.2.18-py3-none-any.whl (48.1 kB view details)

Uploaded Apr 24, 2026 Python 3

File details

Details for the file datateam_moss-0.2.18.tar.gz.

File metadata

Download URL: datateam_moss-0.2.18.tar.gz
Upload date: Apr 24, 2026
Size: 46.0 kB
Tags: Source
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for datateam_moss-0.2.18.tar.gz
Algorithm	Hash digest
SHA256	`aa68892818cf12947cf8ca96c23cfc6ae54b044fa4bd70d3a7cc0904ceb41394`
MD5	`67383e1dcba43f6fd380932194f23023`
BLAKE2b-256	`56dab8001d18119fdc333f6dc723ff038dc7b1ef40f8f1e7da0a0871ad70e9d9`

See more details on using hashes here.

Provenance

The following attestation bundles were made for datateam_moss-0.2.18.tar.gz:

Publisher: publish-to-pypi.yml on Amsterdam/datateam_moss

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: datateam_moss-0.2.18.tar.gz
- Subject digest: aa68892818cf12947cf8ca96c23cfc6ae54b044fa4bd70d3a7cc0904ceb41394
- Sigstore transparency entry: 1367784069
- Sigstore integration time: Apr 24, 2026
Source repository:
- Permalink: Amsterdam/datateam_moss@035b8eec449dfd8100366601b3be3dc6913606e1
- Branch / Tag: refs/heads/main
- Owner: https://github.com/Amsterdam
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: publish-to-pypi.yml@035b8eec449dfd8100366601b3be3dc6913606e1
- Trigger Event: pull_request

File details

Details for the file datateam_moss-0.2.18-py3-none-any.whl.

File metadata

Download URL: datateam_moss-0.2.18-py3-none-any.whl
Upload date: Apr 24, 2026
Size: 48.1 kB
Tags: Python 3
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for datateam_moss-0.2.18-py3-none-any.whl
Algorithm	Hash digest
SHA256	`6ec17750eaab1039ff32c339ac38d9022a098df5ad1756f983be296835fd8ca2`
MD5	`302c993cdc08c47f3cfb4ce327e3483d`
BLAKE2b-256	`e478928a82dd65590486e0f4775ad1c17f634d52b296400877df7d53c73ff3f1`

See more details on using hashes here.

Provenance

The following attestation bundles were made for datateam_moss-0.2.18-py3-none-any.whl:

Publisher: publish-to-pypi.yml on Amsterdam/datateam_moss

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: datateam_moss-0.2.18-py3-none-any.whl
- Subject digest: 6ec17750eaab1039ff32c339ac38d9022a098df5ad1756f983be296835fd8ca2
- Sigstore transparency entry: 1367784134
- Sigstore integration time: Apr 24, 2026
Source repository:
- Permalink: Amsterdam/datateam_moss@035b8eec449dfd8100366601b3be3dc6913606e1
- Branch / Tag: refs/heads/main
- Owner: https://github.com/Amsterdam
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: publish-to-pypi.yml@035b8eec449dfd8100366601b3be3dc6913606e1
- Trigger Event: pull_request

datateam-moss 0.2.18

Navigation

Verified details

Maintainers

Unverified details

Meta

Project description

1. Introductie

1.1 Disclaimers

2. Vereiste

2.1 Geteste Databricks Cluster Configuraties

3. Overzicht Functionaliteiten

3.1 Algemene functies

3.2 Reversed modeling voor logische modellen

Gebruik

Samenvatting

1. Het doel van deze code

2. Hoe de code werkt en onderliggende aannames

3. Ondersteuning voor tools

4. Toekomstige features

Project details

Verified details

Maintainers

Unverified details

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

Provenance

File details

File metadata

File hashes

Provenance