Dagster integration library for Polars

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

`dagster-polars`

Polars integration library for Dagster.

Features

All IOManagers log various metadata about the DataFrame - size, schema, sample, stats, ...
For all IOManagers the "columns" input metadata key can be used to select a subset of columns to load
BasePolarsUPathIOManager is a base class for IO managers that work with Polars DataFrames. Shouldn't be used directly unless you want to implement your own IOManager.
- returns the correct type (polars.DataFrame or polars.LazyFrame) based on the type annotation
- inherits all the features of the UPathIOManager - works with local and remote filesystems (like S3), supports loading multiple partitions (use dict[str, pl.DataFrame] type annotation), ...
- Implemented serialization formats:
  - PolarsParquetIOManager - for reading and writing files in Apache Parquet format. Supports reading partitioned Parquet datasets (for example, often produced by Spark). All read/write options can be set via metadata values.
  - PolarsDeltaIOManager - for reading and writing Delta Lake. All read/write options can be set via metadata values. "partition_by" metadata value can be set to use native Delta Lake partitioning (it's passed to delta_write_options of write_delta). In this case, all the asset partitions will be stored in the same Delta Table directory. You are responsible for filtering correct partitions when reading the data in the downstream assets. Extra dependencies can be installed with pip install 'dagster-polars[deltalake]'. Warning doesn't work good on MacOS
BigQueryPolarsIOManager - for reading and writing data from/to BigQuery. Supports writing partitioned tables ("partition_expr" input metadata key must be specified). Extra dependencies can be installed with pip install 'dagster-polars[gcp]'.

Quickstart

Installation

pip install dagster-polars

To use the BigQueryPolarsIOManager you need to install the gcp extra:

pip install 'dagster-polars[gcp]'

Usage

import polars as pl
from dagster import asset, Definitions
from dagster_polars import PolarsParquetIOManager


@asset(io_manager_key="polars_parquet_io_manager")
def upstream() -> pl.DataFrame:
    df: pl.DataFrame = ...
    return df


@asset(io_manager_key="polars_parquet_io_manager")
def downstream(upstream: pl.LazyFrame) -> pl.DataFrame:
    df = ...  # some lazy operations with `upstream`
    return df.collect()


definitions = Definitions(
    assets=[upstream, downstream],
    resources={
        "polars_parquet_io_manager": PolarsParquetIOManager(base_dir="/remote/or/local/path")
    }
)

Development

Installation

poetry install
poetry run pre-commit install

Testing

poetry run pytest

Ideas

Data validation like in dagster-pandas
Maybe use DagsterTypeLoader ?

Project details

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.23.6

May 16, 2024

0.23.5

May 9, 2024

0.23.4

May 2, 2024

0.23.3

Apr 25, 2024

0.23.2

Apr 18, 2024

0.23.2rc4 pre-release

Apr 19, 2024

0.23.2rc3 pre-release

Apr 18, 2024

0.23.2rc2 pre-release

Apr 16, 2024

0.23.2rc1 pre-release

Apr 16, 2024

0.23.1

Apr 11, 2024

0.23.0

Apr 4, 2024

0.22.14

Mar 29, 2024

0.22.13

Mar 22, 2024

0.22.12

Mar 21, 2024

0.22.11

Mar 15, 2024

0.22.10

Mar 14, 2024

0.22.9

Mar 8, 2024

0.22.8

Mar 1, 2024

0.22.7

Feb 29, 2024

0.22.6

Feb 22, 2024

0.3.1

Jan 30, 2024

0.3.1a0 pre-release

Jan 30, 2024

0.3.0

Jan 29, 2024

0.3.0a0 pre-release

Jan 29, 2024

0.2.2

Jan 19, 2024

0.2.2.dev1 pre-release

Jan 19, 2024

0.2.1

Jan 17, 2024

0.2.0

Jan 17, 2024

0.1.6.dev1 pre-release

Nov 16, 2023

0.1.5

Nov 1, 2023

0.1.5.dev4 pre-release

Nov 1, 2023

0.1.5.dev2 pre-release

Nov 1, 2023

0.1.4

Oct 31, 2023

0.1.4.dev9 pre-release

Oct 31, 2023

0.1.4.dev8 pre-release

Oct 31, 2023

0.1.4.dev7 pre-release

Oct 31, 2023

0.1.4.dev6 pre-release

Oct 31, 2023

0.1.4.dev5 pre-release

Oct 31, 2023

0.1.4.dev4 pre-release

Oct 31, 2023

0.1.4.dev2 pre-release

Oct 31, 2023

0.1.3

Oct 25, 2023

0.1.2

Oct 15, 2023

0.1.1

Sep 7, 2023

0.1.0

Sep 7, 2023

0.0.10

Sep 1, 2023

0.0.10.dev5 pre-release

Sep 6, 2023

0.0.9

Aug 17, 2023

0.0.8

Aug 4, 2023

0.0.7

Aug 3, 2023

0.0.6

Jul 30, 2023

0.0.5

Jul 6, 2023

This version

0.0.4

Jun 30, 2023

0.0.3a0 pre-release

Jun 30, 2023

0.0.2

Jun 25, 2023

0.0.1

Jun 12, 2023

0.0.0

Jun 11, 2023

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

dagster_polars-0.0.4.tar.gz (13.9 kB view hashes)

Uploaded Jun 30, 2023 Source

Built Distribution

dagster_polars-0.0.4-py3-none-any.whl (16.6 kB view hashes)

Uploaded Jun 30, 2023 Python 3

Hashes for dagster_polars-0.0.4.tar.gz

Hashes for dagster_polars-0.0.4.tar.gz
Algorithm	Hash digest
SHA256	`963708cc414a23fb644c8f50eb9c9b8b4a1554b4067e01fcdfb3020e8263a136`
MD5	`627381cd52df540bcfacd1c1de6d73f2`
BLAKE2b-256	`77b9cb8944a8f63bd5e4247a1bd0a909425d2d9a812aa69ad8999466e7d7982a`

Hashes for dagster_polars-0.0.4-py3-none-any.whl

Hashes for dagster_polars-0.0.4-py3-none-any.whl
Algorithm	Hash digest
SHA256	`fb97c88dcee42e886810fd59809ae8174b7325ad8c23c9f0ef15e46fd16e3dc5`
MD5	`11d70765d6d7e3bedbeddaa0dfe214d4`
BLAKE2b-256	`67eb309a0089b7d8553336eb987509ca1d1eb899c7dc1cdf1f9a9a74aadda83f`