RayDP: Distributed Data Processing on Ray

These details have not been verified by PyPI

Project links

Homepage

Project description

RayDP

RayDP is a distributed data processing library that provides simple APIs for running Spark/MPI on Ray and integrating Spark with distributed deep learning and machine learning frameworks. RayDP makes it simple to build distributed end-to-end data analytics and AI pipeline. Instead of using lots of glue code or an orchestration framework to stitch multiple distributed programs, RayDP allows you to write Spark, PyTorch, Tensorflow, XGBoost code in a single python program with increased productivity and performance. You can build an end-to-end pipeline on a single Ray cluster by using Spark for data preprocessing, RaySGD or Horovod for distributed deep learning, RayTune for hyperparameter tuning and RayServe for model serving.

Installation

You can install latest RayDP using pip. RayDP requires Ray (>=1.3.0) and PySpark (>=3.0.0). Please also make sure java is installed and JAVA_HOME is set properly.

pip install raydp

Or you can install our nightly build:

pip install raydp-nightly

If you'd like to build and install the latest master, use the following command:

./build.sh
pip install dist/raydp*.whl

Spark on Ray

RayDP provides an API for starting a Spark job on Ray in your python program without a need to setup a Spark cluster manually. RayDP supports Ray as a Spark resource manger and runs Spark executors in Ray actors. RayDP utilizes Ray's in-memory object store to efficiently exchange data between Spark and other Ray libraries. You can use Spark to read the input data, process the data using SQL, Spark DataFrame, or Pandas (via Koalas) API, extract and transform features using Spark MLLib, and feed the output to deep learning and machine learning frameworks.

Classic Spark Word Count Example

To start a Spark job on Ray, you can use the raydp.init_spark API. After we use RayDP to initialize a Spark cluster, we can use Spark as usual.

import ray
import raydp

# connect to ray cluster
ray.init(address='auto')

# create a Spark cluster with specified resource requirements
spark = raydp.init_spark('word_count',
                         num_executors=2,
                         executor_cores=2,
                         executor_memory='1G')

# normal data processesing with Spark
df = spark.createDataFrame([('look',), ('spark',), ('tutorial',), ('spark',), ('look', ), ('python', )], ['word'])
df.show()
word_count = df.groupBy('word').count()
word_count.show()

# stop the spark cluster
raydp.stop_spark()

Dynamic Resource Allocation

RayDP now supports External Shuffle Serivce. To enable it, you can either set spark.shuffle.service.enabled to true in spark-defaults.conf, or you can provide a config to raydp.init_spark, as shown below:

raydp.init_spark(..., configs={"spark.shuffle.service.enabled": "true"})

The user-provided config will overwrite those specified in spark-defaults.conf. By default Spark will load spark-defaults.conf from $SPARK_HOME/conf, you can also modify this location by setting SPARK_CONF_DIR.

Similarly, you can also enable Dynamic Executor Allocation this way. However, because Ray does not support object ownership tranferring now(1.3.0), you must use Dynamic Executor Allocation with data persistence. You can write the data frame in spark to HDFS as a parquet as shown below:

ds = RayMLDataset.from_spark(..., fs_directory="hdfs://host:port/your/directory")

Spark Submit

RayDP provides a substitute for spark-submit in Apache Spark. You can run your java or scala application on RayDP cluster by using bin/raydp-submit. You can add it to PATH for convenience. When using raydp-submit, you should specify number of executors, number of cores and memory each executor by Spark properties, such as --conf spark.executor.cores=1, --conf spark.executor.instances=1 and --conf spark.executor.memory=500m. raydp-submit only supports Ray cluster. Spark standalone, Apache Mesos, Apache Yarn are not supported, please use traditional spark-submit in that case. For the same reason, you do not need to specify --master in the command. Besides, RayDP does not support cluster as deploy-mode.

Integrating Spark with Deep Learning and Machine Learning Frameworks

Combined with other ray components, such as RaySGD and RayServe, we can easily build an end-to-end deep learning pipeline.

MLDataset API

RayDP provides an API for creating a Ray MLDataset from a Spark dataframe. MLDataset represents a distributed dataset stored in Ray's in-memory object store. It supports transformation on each shard and can be converted to a PyTorch or Tensorflow dataset for distributed training. If you prefer to using Horovod on Ray or RaySGD for distributed training, you can use MLDataset to seamlessly integrate Spark with them.

Estimator API

RayDP also provides high level scikit-learn style Estimator APIs for distributed training. The Estimator APIs allow you to train a deep neural network directly on a Spark DataFrame, leveraging Ray’s ability to scale out across the cluster. The Estimator APIs are wrappers of RaySGD and hide the complexity of converting a Spark DataFrame to a PyTorch/Tensorflow dataset and distributing the training.

import ray
import raydp
from raydp.torch import TorchEstimator

ray.init(address="auto")
spark = raydp.init_spark(app_name="RayDP example",
                         num_executors=2,
                         executor_cores=2,
                         executor_memory="4GB")

# Spark DataFrame Code 
df = spark.read.parquet(…) 
train_df = df.withColumn(…)

# PyTorch Code 
model = torch.nn.Sequential(torch.nn.Linear(2, 1)) 
optimizer = torch.optim.Adam(model.parameters())

# You can use the RayDP Estimator API or libraries like RaySGD for distributed training.
estimator = TorchEstimator(model=model, optimizer=optimizer, ...) 
estimator.fit_on_spark(train_df)

raydp.stop_spark()

MPI on Ray

RayDP also provides a simple API to running MPI job on top of Ray. Currently, we support three types of MPI: intel_mpi, openmpi and MPICH. You can refer doc/mpi.md for more details.

More Examples

Not sure how to use RayDP? Check the examples folder. We have added many examples showing how RayDP works together with PyTorch, TensorFlow, XGBoost, Horovod, and so on. If you still cannot find what you want, feel free to post an issue to ask us!

Project details

These details have not been verified by PyPI

Project links

Homepage

Release history Release notifications | RSS feed

2024.6.19.dev0 pre-release

Jun 19, 2024

2024.5.1.dev0 pre-release

May 1, 2024

2024.4.25.dev0 pre-release

Apr 25, 2024

2024.4.13.dev0 pre-release

Apr 13, 2024

2024.4.10.dev0 pre-release

Apr 10, 2024

2023.12.23.dev0 pre-release

Dec 23, 2023

2023.12.16.dev0 pre-release

Dec 16, 2023

2023.12.5.dev0 pre-release

Dec 5, 2023

2023.10.20.dev0 pre-release

Oct 20, 2023

2023.10.17.dev0 pre-release

Oct 17, 2023

2023.10.9.dev0 pre-release

Oct 9, 2023

2023.9.19.dev0 pre-release

Sep 19, 2023

2023.8.12.dev0 pre-release

Aug 12, 2023

2023.8.7.dev0 pre-release

Aug 7, 2023

2023.8.5.dev0 pre-release

Aug 5, 2023

2023.8.1.dev0 pre-release

Aug 1, 2023

2023.7.27.dev0 pre-release

Jul 27, 2023

2023.7.26.dev0 pre-release

Jul 26, 2023

2023.7.11.dev0 pre-release

Jul 11, 2023

2023.7.8.dev0 pre-release

Jul 8, 2023

2023.7.5.dev0 pre-release

Jul 5, 2023

2023.7.4.dev0 pre-release

Jul 4, 2023

2023.6.27.dev0 pre-release

Jun 27, 2023

2023.6.14.dev0 pre-release

Jun 14, 2023

2023.6.8.dev0 pre-release

Jun 8, 2023

2023.5.27.dev0 pre-release

May 27, 2023

2023.5.23.dev0 pre-release

May 23, 2023

2023.5.19.dev0 pre-release

May 19, 2023

2023.4.24.dev0 pre-release

Apr 24, 2023

2023.4.14.dev0 pre-release

Apr 14, 2023

2023.4.8.dev0 pre-release

Apr 8, 2023

2023.4.5.dev0 pre-release

Apr 5, 2023

2023.4.1.dev0 pre-release

Apr 1, 2023

2023.3.28.dev0 pre-release

Mar 28, 2023

2023.3.22.dev0 pre-release

Mar 22, 2023

2023.3.10.dev0 pre-release

Mar 10, 2023

2023.3.7.dev0 pre-release

Mar 7, 2023

2023.3.3.dev0 pre-release

Mar 3, 2023

2023.3.2.dev0 pre-release

Mar 2, 2023

2023.3.1.dev0 pre-release

Mar 1, 2023

2023.2.25.dev0 pre-release

Feb 25, 2023

2023.2.24.dev0 pre-release

Feb 24, 2023

2023.2.2.dev1 pre-release

Feb 2, 2023

2023.1.10.dev1 pre-release

Jan 10, 2023

2023.1.4.dev1 pre-release

Jan 4, 2023

2022.12.24.dev1 pre-release

Dec 24, 2022

2022.12.17.dev1 pre-release

Dec 17, 2022

2022.12.6.dev1 pre-release

Dec 6, 2022

2022.12.3.dev1 pre-release

Dec 3, 2022

2022.12.1.dev1 pre-release

Dec 1, 2022

2022.11.25.dev1 pre-release

Nov 25, 2022

2022.11.18.dev1 pre-release

Nov 18, 2022

2022.11.16.dev1 pre-release

Nov 16, 2022

2022.11.4.dev1 pre-release

Nov 4, 2022

2022.10.28.dev1 pre-release

Oct 28, 2022

2022.10.21.dev1 pre-release

Oct 21, 2022

2022.10.20.dev1 pre-release

Oct 20, 2022

2022.10.19.dev1 pre-release

Oct 19, 2022

2022.9.29.dev1 pre-release

Sep 29, 2022

2022.9.20.dev1 pre-release

Sep 20, 2022

2022.9.16.dev1 pre-release

Sep 16, 2022

2022.9.10.dev1 pre-release

Sep 10, 2022

2022.9.9.dev1 pre-release

Sep 9, 2022

2022.9.2.dev1 pre-release

Sep 2, 2022

2022.8.6.dev1 pre-release

Aug 6, 2022

2022.8.2.dev1 pre-release

Aug 2, 2022

2022.7.26.dev1 pre-release

Jul 26, 2022

2022.7.18.dev1 pre-release

Jul 18, 2022

2022.7.15.dev1 pre-release

Jul 15, 2022

2022.7.7.dev1 pre-release

Jul 7, 2022

2022.6.30.dev1 pre-release

Jun 30, 2022

2022.6.16.dev1 pre-release

Jun 16, 2022

2022.6.3.dev1 pre-release

Jun 3, 2022

2022.5.27.dev1 pre-release

May 27, 2022

2022.5.26.dev1 pre-release

May 26, 2022

2022.5.26.dev0 pre-release

May 26, 2022

2022.5.25.dev0 pre-release

May 25, 2022

2022.5.12.dev0 pre-release

May 12, 2022

2022.5.11.dev0 pre-release

May 11, 2022

2022.4.20.dev0 pre-release

Apr 20, 2022

2022.3.12.dev0 pre-release

Mar 12, 2022

2022.3.11.dev0 pre-release

Mar 11, 2022

2022.3.10.dev0 pre-release

Mar 10, 2022

2022.3.9.dev0 pre-release

Mar 9, 2022

2022.3.8.dev0 pre-release

Mar 8, 2022

2022.2.11.dev0 pre-release

Feb 11, 2022

2022.1.20.dev0 pre-release

Jan 20, 2022

2022.1.15.dev0 pre-release

Jan 15, 2022

2021.12.16.dev0 pre-release

Dec 16, 2021

2021.11.6.dev0 pre-release

Nov 6, 2021

2021.11.3.dev0 pre-release

Nov 3, 2021

2021.10.29.dev0 pre-release

Oct 29, 2021

2021.10.28.dev0 pre-release

Oct 28, 2021

2021.10.20.dev0 pre-release

Oct 20, 2021

2021.10.19.dev0 pre-release

Oct 19, 2021

2021.10.9.dev0 pre-release

Oct 9, 2021

2021.9.17.dev0 pre-release

Sep 17, 2021

2021.9.9.dev0 pre-release

Sep 9, 2021

2021.9.8.dev0 pre-release

Sep 8, 2021

2021.9.7.dev0 pre-release

Sep 7, 2021

2021.9.3.dev0 pre-release

Sep 3, 2021

2021.9.2.dev0 pre-release

Sep 2, 2021

2021.7.30.dev0 pre-release

Jul 30, 2021

This version

2021.7.21.dev0 pre-release

Jul 21, 2021

2021.7.1.dev0 pre-release

Jul 1, 2021

2021.6.22.dev0 pre-release

Jun 22, 2021

2021.6.17.dev0 pre-release

Jun 17, 2021

2021.6.12.dev0 pre-release

Jun 12, 2021

2021.6.8.dev0 pre-release

Jun 8, 2021

2021.6.5.dev0 pre-release

Jun 5, 2021

2021.6.4.dev0 pre-release

Jun 4, 2021

2021.6.1.dev0 pre-release

Jun 1, 2021

2021.5.21.dev0 pre-release

May 21, 2021

2021.5.18.dev0 pre-release

May 18, 2021

2021.5.12.dev0 pre-release

May 12, 2021

2021.5.4.dev0 pre-release

May 4, 2021

2021.5.1.dev0 pre-release

May 1, 2021

2021.4.30.dev0 pre-release

Apr 30, 2021

2021.4.29.dev0 pre-release

Apr 29, 2021

2021.4.12.dev0 pre-release

Apr 12, 2021

2021.4.8.dev0 pre-release

Apr 8, 2021

2021.4.7.dev0 pre-release

Apr 7, 2021

2021.4.2.dev0 pre-release

Apr 2, 2021

2021.3.31.dev0 pre-release

Mar 31, 2021

2021.3.25.dev0 pre-release

Mar 25, 2021

2021.3.24.dev0 pre-release

Mar 24, 2021

2021.3.18.dev0 pre-release

Mar 18, 2021

2021.3.17.dev0 pre-release

Mar 17, 2021

2021.3.16.dev0 pre-release

Mar 16, 2021

2021.3.15.dev0 pre-release

Mar 15, 2021

2021.3.14.dev0 pre-release

Mar 14, 2021

2021.3.13.dev0 pre-release

Mar 13, 2021

2021.3.11.dev0 pre-release

Mar 11, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distribution

raydp_nightly-2021.7.21.dev0-py3-none-any.whl (10.3 MB view details)

Uploaded Jul 21, 2021 Python 3

File details

Details for the file raydp_nightly-2021.7.21.dev0-py3-none-any.whl.

File metadata

Download URL: raydp_nightly-2021.7.21.dev0-py3-none-any.whl
Upload date: Jul 21, 2021
Size: 10.3 MB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/3.4.2 importlib_metadata/4.6.1 pkginfo/1.7.1 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.61.2 CPython/3.9.6

File hashes

Hashes for raydp_nightly-2021.7.21.dev0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`4f85474cc15ff6b40e9770ce3dc1d5811c323bcf9723f6cfefa0c9449e900f59`
MD5	`c40767fd5c09726c04fbfb5746869872`
BLAKE2b-256	`6ab285bc160b3a30527d10f7021a692a69a2856e171073cb86a46fefa2d7fd3d`