Rats Processors

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

rats-processors

A package to create and compose pipelines in a high level API, where processors (classes or unbound methods) are mapped into pipeline nodes, node ports are inferred from the processors signature, and edges are created by connecting node ports inputs and outputs. Pipelines defined this way are immutable objects that can be reused and composed into larger pipelines, facilitating reusability.

Example

In your python project or Jupyter notebook, you can compose a pipeline as follows:

from typing import NamedTuple

from pathlib import Path

from sklearn.base import BaseEstimator
import pandas as pd
from rats.processors import task, pipeline, Pipeline, PipelineContainer


class DataOut(NamedTuple):
    data: pd.DataFrame


class ModelOut(NamedTuple):
    model: BaseEstimator


class MyContainer(PipelineContainer):
    @task
    def load_data(self, fname: Path) -> DataOut:
        return DataOut(data=pd.read_csv(fname))

    @task
    def train_model(self, data: pd.DataFrame) -> ModelOut:
        return {"model": "trained"}

    @pipeline
    def my_pipeline(self) -> Pipeline:
        load_data = self.load_data()
        train_model = self.get(train_model)
        return self.combine(
            pipelines=[load_data, train_model],
            dependencies=(train_model.inputs.data << load_data.outputs.data),
        )

The above example helps with modularization and bringing exploratory code from notebooks to more permanent code.

The example above illustrates already several important concepts:

rats.processors.PipelineContainer: we wire up code modularly, i.e., one container organizes and connects tasks and pipelines.
rats.processors.ux.Pipeline: a data structure that represents a computation graph, or a direct acyclic graph (DAG) of operations.
rats.processors.task: a decorator to define a computational task, which we refer as processor and register it into the container. The return value of this method is rats.processors.ux.Pipeline, a (single-node) pipeline.
rats.processors.pipeline: a decorator to register a rats.processors.ux.Pipeline, which can be a combination of other pipelines, or any method that returns a pipeline.

Note that to create a pipeline, you first create tasks (processors) and then combine them into larger pipelines, e.g. MyContainer.load_data and MyContainer.train_model are processors wrapped by the task decorator, and MyContainer.my_pipeline is a pipeline wrapped by the pipeline decorator.

To run the above pipeline, you can do the following:

from rats.apps import autoid, NotebookApp


app = NotebookApp()
app.add(MyContainer())  # add a container to the notebook app
p = app.get(autoid(MyContainer.my_pipeline))  # get a pipeline by its id
app.draw(p)
app.run(p, inputs={"fname": "data.csv"})

Concepts

Concepts	Description
Pipelines	DAG organizing computation tasks
	Orchestrated in run environments
	Figure display
Tasks	Entry point for computation process
	Accepts dynamic inputs/outputs
Combined	Compose tasks & pipelines to draw more complex DAGs.
	Dependency assignment

Features

Features
Modular	Steps become independent; Plug & play		Distributed	Uses required resources (spark or GPUs)
Graph-based	Can operate on the DAG; Enables meta-pipelines		Reusable	Every pipeline is shareable allowing collaborations

Goals

Flexibility: multiple data sources; multiple ML frameworks (pytorch, sklearn, ...), etc.
Scalability: both data and compute.
Usability: everyone should be able to author components and share them.
Reproducibility: Tracking and recreating results.

Project details

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.1.3.dev61 pre-release

May 10, 2024

0.1.3.dev58 pre-release

May 7, 2024

0.1.3.dev57 pre-release

May 2, 2024

0.1.3.dev50 pre-release

May 2, 2024

0.1.3.dev49 pre-release

May 1, 2024

0.1.3.dev48 pre-release

Apr 30, 2024

0.1.3.dev47 pre-release

Apr 30, 2024

0.1.3.dev46 pre-release

Apr 30, 2024

0.1.3.dev45 pre-release

Apr 29, 2024

0.1.3.dev44 pre-release

Apr 26, 2024

0.1.3.dev43 pre-release

Apr 26, 2024

0.1.3.dev42 pre-release

Apr 26, 2024

0.1.3.dev41 pre-release

Apr 26, 2024

0.1.3.dev40 pre-release

Apr 26, 2024

0.1.3.dev39 pre-release

Apr 26, 2024

0.1.3.dev38 pre-release

Apr 26, 2024

0.1.3.dev37 pre-release

Apr 26, 2024

0.1.3.dev35 pre-release

Apr 25, 2024

0.1.3.dev34 pre-release

Apr 25, 2024

0.1.3.dev33 pre-release

Apr 24, 2024

0.1.3.dev32 pre-release

Apr 24, 2024

0.1.3.dev31 pre-release

Apr 23, 2024

0.1.3.dev30 pre-release

Apr 23, 2024

0.1.3.dev28 pre-release

Apr 23, 2024

0.1.3.dev27 pre-release

Apr 23, 2024

0.1.3.dev26 pre-release

Apr 23, 2024

0.1.3.dev24 pre-release

Apr 23, 2024

This version

0.1.3.dev21 pre-release

Apr 22, 2024

0.1.3.dev20 pre-release

Apr 22, 2024

0.1.3.dev19 pre-release

Apr 22, 2024

0.1.3.dev18 pre-release

Apr 20, 2024

0.1.3.dev16 pre-release

Apr 19, 2024

0.1.3.dev15 pre-release

Apr 19, 2024

0.1.3.dev14 pre-release

Apr 18, 2024

0.1.3.dev13 pre-release

Apr 17, 2024

0.1.3.dev12 pre-release

Apr 17, 2024

0.1.3.dev11 pre-release

Apr 17, 2024

0.1.3.dev10 pre-release

Apr 16, 2024

0.1.3.dev9 pre-release

Apr 16, 2024

0.1.3.dev8 pre-release

Apr 16, 2024

0.1.3.dev1 pre-release

Apr 15, 2024

0.1.2

Apr 15, 2024

0.1.2.dev15 pre-release

Apr 15, 2024

0.1.2.dev13 pre-release

Apr 15, 2024

0.1.2.dev12 pre-release

Apr 12, 2024

0.1.2.dev11 pre-release

Apr 12, 2024

0.1.2.dev10 pre-release

Apr 11, 2024

0.1.2.dev9 pre-release

Apr 10, 2024

0.1.2.dev8 pre-release

Apr 10, 2024

0.1.2.dev6 pre-release

Apr 10, 2024

0.1.2.dev1 pre-release

Apr 10, 2024

0.1.1

Apr 10, 2024

0.1.1.dev34 pre-release

Apr 10, 2024

0.1.1.dev31 pre-release

Apr 10, 2024

0.1.1.dev30 pre-release

Apr 5, 2024

0.1.1.dev29 pre-release

Apr 5, 2024

0.1.1.dev28 pre-release

Apr 5, 2024

0.1.1.dev25 pre-release

Apr 5, 2024

0.1.1.dev24 pre-release

Apr 4, 2024

0.1.1.dev22 pre-release

Apr 3, 2024

0.1.1.dev21 pre-release

Apr 3, 2024

0.1.1.dev19 pre-release

Apr 3, 2024

0.1.1.dev9 pre-release

Mar 26, 2024

0.1.1.dev4 pre-release

Mar 26, 2024

0.1.0

Mar 14, 2024

0.0.1.dev5 pre-release

Mar 14, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

rats_processors-0.1.3.dev21-py3-none-any.whl (83.5 kB view hashes)

Uploaded Apr 22, 2024 Python 3

Hashes for rats_processors-0.1.3.dev21-py3-none-any.whl

Hashes for rats_processors-0.1.3.dev21-py3-none-any.whl
Algorithm	Hash digest
SHA256	`18b4a94c9c5e75777a53a150b94d26407fb404a85a99121390aaf6f1ff9a4909`
MD5	`239eb1fb254e342fef1f39fbea69c4db`
BLAKE2b-256	`5b150316dcf7ce7e73598f495041938bbd642536b7333784f05cd3bf0358efff`