Reversible Data Transforms

These details have not been verified by PyPI

Project links

Chat
Twitter

Project description

This repository is part of The Synthetic Data Vault Project, a project from DataCebo.

Overview

RDT (Reversible Data Transforms) is a Python library that transforms raw data into fully numerical data, ready for data science. The transforms are reversible, allowing you to convert from numerical data back into your original format.

Install

Install RDT using pip or conda. We recommend using a virtual environment to avoid conflicts with other software on your device.

pip install rdt

conda install -c conda-forge rdt

For more information about using reversible data transformations, visit the RDT Documentation.

Quickstart

In this short series of tutorials we will guide you through a series of steps that will help you getting started using RDT to transform columns, tables and datasets.

Load the demo data

After you have installed RDT, you can get started using the demo dataset.

from rdt import get_demo

customers = get_demo()

This dataset contains some randomly generated values that describe the customers of an online marketplace.

  last_login email_optin credit_card  age  dollars_spent
0 2021-06-26       False        VISA   29          99.99
1 2021-02-10       False        VISA   18            NaN
2        NaT       False        AMEX   21           2.50
3 2020-09-26        True         NaN   45          25.00
4 2020-12-22         NaN    DISCOVER   32          19.99

Let's transform this data so that each column is converted to full, numerical data ready for data science.

Creating the HyperTransformer & config

The HyperTransformer is capable of transforming multi-column datasets.

from rdt import HyperTransformer

ht = HyperTransformer()

The HyperTransformer needs to know about the columns in your dataset and which transformers to apply to each. These are described by a config. We can ask the HyperTransformer to automatically detect it based on the data we plan to use.

ht.detect_initial_config(data=customers)

This will create and set the config.

Config:
{
    "sdtypes": {
        "last_login": "datetime",
        "email_optin": "boolean",
        "credit_card": "categorical",
        "age": "numerical",
        "dollars_spent": "numerical"
    },
    "transformers": {
        "last_login": "UnixTimestampEncoder()",
        "email_optin": "BinaryEncoder()",
        "credit_card": "FrequencyEncoder()",
        "age": "FloatFormatter()",
        "dollars_spent": "FloatFormatter()"
    }
}

The sdtypes dictionary describes the semantic data types of each of your columns and the transformers dictionary describes which transformer to use for each column. You can customize the transformers and their settings. (See the Transformers Glossary for more information).

Fitting & using the HyperTransformer

The HyperTransformer references the config while learning the data during the fit stage.

ht.fit(customers)

Once the transformer is fit, it's ready to use. Use the transform method to transform all columns of your dataset at once.

transformed_data = ht.transform(customers)

   last_login.value  email_optin.value  credit_card.value  age.value  dollars_spent.value
0      1.624666e+18                0.0                0.2         29                99.99
1      1.612915e+18                0.0                0.2         18                36.87
2      1.611814e+18                0.0                0.5         21                 2.50
3      1.601078e+18                1.0                0.7         45                25.00
4      1.608595e+18                0.0                0.9         32                19.99

The HyperTransformer applied the assigned transformer to each individual column. Each column now contains fully numerical data that you can use for your project!

When you're done with your project, you can also transform the data back to the original format using the reverse_transform method.

original_format_data = ht.reverse_transform(transformed_data)

  last_login email_optin credit_card  age  dollars_spent
0        NaT       False        VISA   29          99.99
1 2021-02-10       False        VISA   18            NaN
2        NaT       False        AMEX   21            NaN
3 2020-09-26        True         NaN   45          25.00
4 2020-12-22       False    DISCOVER   32          19.99

What's Next?

To learn more about reversible data transformations, visit the RDT Documentation.

The Synthetic Data Vault Project was first created at MIT's Data to AI Lab in 2016. After 4 years of research and traction with enterprise, we created DataCebo in 2020 with the goal of growing the project. Today, DataCebo is the proud developer of SDV, the largest ecosystem for synthetic data generation & evaluation. It is home to multiple libraries that support synthetic data, including:

🔄 Data discovery & transformation. Reverse the transforms to reproduce realistic data.
🧠 Multiple machine learning models -- ranging from Copulas to Deep Learning -- to create tabular, multi table and time series data.
📊 Measuring quality and privacy of synthetic data, and comparing different synthetic data generation models.

Get started using the SDV package -- a fully integrated solution and your one-stop shop for synthetic data. Or, use the standalone libraries for specific needs.

Project details

These details have not been verified by PyPI

Project links

Chat
Twitter

Release history Release notifications | RSS feed

This version

1.17.1

Jun 27, 2025

1.17.1.dev1 pre-release

Jun 26, 2025

1.17.1.dev0 pre-release

Jun 26, 2025

1.17.0

May 13, 2025

1.17.0.dev0 pre-release

May 12, 2025

1.16.0

Apr 10, 2025

1.16.0.dev0 pre-release

Apr 10, 2025

1.15.1

Apr 2, 2025

1.15.1.dev0 pre-release

Apr 2, 2025

1.15.0

Mar 14, 2025

1.15.0.dev0 pre-release

Mar 13, 2025

1.14.0

Feb 12, 2025

1.14.0.dev0 pre-release

Feb 11, 2025

1.13.2

Dec 16, 2024

1.13.2.dev0 pre-release

Dec 13, 2024

1.13.1

Nov 13, 2024

1.13.1.dev0 pre-release

Nov 13, 2024

1.13.0

Oct 8, 2024

1.13.0.dev0 pre-release

Oct 8, 2024

1.12.4

Sep 5, 2024

1.12.4.dev0 pre-release

Sep 5, 2024

1.12.3

Aug 14, 2024

1.12.3.dev0 pre-release

Aug 14, 2024

1.12.2

Jul 9, 2024

1.12.2.dev0 pre-release

Jul 9, 2024

1.12.1

May 9, 2024

1.12.1.dev1 pre-release

May 9, 2024

1.12.1.dev0 pre-release

May 8, 2024

1.12.0

Apr 19, 2024

1.12.0.dev1 pre-release

Apr 19, 2024

1.12.0.dev0 pre-release

Apr 19, 2024

1.11.1

Apr 16, 2024

1.11.1.dev0 pre-release

Apr 16, 2024

1.11.0

Apr 11, 2024

1.11.0.dev0 pre-release

Apr 10, 2024

1.10.1

Mar 21, 2024

1.10.1.dev0 pre-release

Mar 21, 2024

1.10.0

Mar 13, 2024

1.10.0.dev0 pre-release

Mar 13, 2024

1.9.3.dev0 pre-release

Mar 13, 2024

1.9.2

Feb 13, 2024

1.9.2.dev0 pre-release

Feb 13, 2024

1.9.1

Jan 10, 2024

1.9.1.dev0 pre-release

Jan 10, 2024

1.9.0

Nov 14, 2023

1.9.0.dev0 pre-release

Nov 14, 2023

1.8.0

Oct 31, 2023

1.8.0.dev1 pre-release

Oct 30, 2023

1.8.0.dev0 pre-release

Oct 30, 2023

1.7.0

Aug 22, 2023

1.7.0.dev2 pre-release

Aug 22, 2023

1.7.0.dev1 pre-release

Aug 21, 2023

1.7.0.dev0 pre-release

Aug 14, 2023

1.6.1

Aug 2, 2023

1.6.1.dev1 pre-release

Aug 2, 2023

1.6.1.dev0 pre-release

Jul 17, 2023

1.6.0

Jul 12, 2023

1.6.0.dev0 pre-release

Jul 12, 2023

1.5.1.dev1 pre-release

Jul 10, 2023

1.5.1.dev0 pre-release

Jun 29, 2023

1.5.0

Jun 1, 2023

1.5.0.dev1 pre-release

Jun 1, 2023

1.5.0.dev0 pre-release

May 31, 2023

1.4.2

May 2, 2023

1.4.2.dev0 pre-release

May 1, 2023

1.4.1

Apr 26, 2023

1.4.1.dev0 pre-release

Apr 25, 2023

1.4.0

Apr 13, 2023

1.4.0.dev0 pre-release

Apr 12, 2023

1.3.1.dev0 pre-release

Apr 12, 2023

1.3.0

Jan 18, 2023

1.3.0.dev2 pre-release

Jan 17, 2023

1.3.0.dev1 pre-release

Jan 6, 2023

1.3.0.dev0 pre-release

Dec 14, 2022

1.2.2.dev0 pre-release

Sep 16, 2022

1.2.1

Sep 12, 2022

1.2.1.dev0 pre-release

Sep 9, 2022

1.2.0

Aug 18, 2022

1.2.0.dev1 pre-release

Aug 17, 2022

1.2.0.dev0 pre-release

Aug 17, 2022

1.1.0

Jun 9, 2022

1.1.0.dev0 pre-release

Jun 9, 2022

1.0.0

May 5, 2022

1.0.0.dev0 pre-release

Apr 21, 2022

0.6.4

Mar 7, 2022

0.6.4.dev0 pre-release

Mar 4, 2022

0.6.3

Feb 4, 2022

0.6.3.dev3 pre-release

Feb 3, 2022

0.6.3.dev2 pre-release

Jan 26, 2022

0.6.3.dev1 pre-release

Jan 26, 2022

0.6.3.dev0 pre-release

Jan 22, 2022

0.6.2

Dec 28, 2021

0.6.2.dev0 pre-release

Dec 21, 2021

0.6.1

Nov 10, 2021

0.6.1.dev0 pre-release

Nov 10, 2021

0.6.0

Oct 29, 2021

0.6.0.dev1 pre-release

Oct 29, 2021

0.6.0.dev0 pre-release

Oct 26, 2021

0.5.3

Oct 8, 2021

0.5.3.dev0 pre-release

Oct 7, 2021

0.5.2

Aug 17, 2021

0.5.2.dev0 pre-release

Aug 17, 2021

0.5.1 yanked

Aug 11, 2021

Reason this release was yanked:

Introduced a critical bug

0.5.1.dev0 pre-release

Aug 11, 2021

0.5.0

Jul 12, 2021

0.5.0.dev1 pre-release

Jul 2, 2021

0.5.0.dev0 pre-release

Jun 30, 2021

0.4.2

Jun 8, 2021

0.4.2.dev0 pre-release

Jun 8, 2021

0.4.1

Mar 29, 2021

0.4.1.dev1 pre-release

Mar 29, 2021

0.4.1.dev0 pre-release

Mar 16, 2021

0.4.0

Feb 24, 2021

0.4.0.dev1 pre-release

Feb 23, 2021

0.4.0.dev0 pre-release

Feb 19, 2021

0.3.0

Jan 27, 2021

0.3.0.dev0 pre-release

Jan 27, 2021

0.2.11.dev0 pre-release

Jan 26, 2021

0.2.10

Dec 18, 2020

0.2.10.dev0 pre-release

Dec 9, 2020

0.2.9

Nov 27, 2020

0.2.9.dev0 pre-release

Nov 27, 2020

0.2.8

Nov 20, 2020

0.2.8.dev0 pre-release

Nov 20, 2020

0.2.7

Oct 16, 2020

0.2.7.dev0 pre-release

Oct 15, 2020

0.2.6

Oct 5, 2020

0.2.6.dev0 pre-release

Sep 30, 2020

0.2.5

Sep 18, 2020

0.2.5.dev0 pre-release

Sep 11, 2020

0.2.4

Aug 7, 2020

0.2.4.dev1 pre-release

Aug 7, 2020

0.2.4.dev0 pre-release

Aug 7, 2020

0.2.3

Jul 9, 2020

0.2.3.dev0 pre-release

Jul 9, 2020

0.2.2

Jun 26, 2020

0.2.2.dev0 pre-release

Jun 25, 2020

0.2.1

Jan 17, 2020

0.2.0

Oct 15, 2019

0.1.3

Sep 24, 2019

0.1.2

Feb 1, 2019

0.1.1

Oct 16, 2018

0.1.1.dev0 pre-release

Oct 16, 2018

0.1.0

Aug 23, 2018

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

rdt-1.17.1.tar.gz (64.6 kB view details)

Uploaded Jun 27, 2025 Source

Built Distribution

rdt-1.17.1-py3-none-any.whl (73.8 kB view details)

Uploaded Jun 27, 2025 Python 3

File details

Details for the file rdt-1.17.1.tar.gz.

File metadata

Download URL: rdt-1.17.1.tar.gz
Upload date: Jun 27, 2025
Size: 64.6 kB
Tags: Source
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for rdt-1.17.1.tar.gz
Algorithm	Hash digest
SHA256	`8d8dffb1193e21dcd264b2f613333ff9636c75c7f338da553a40b72b04e25d0c`
MD5	`210b96f01a5f4b0c9ab06562ab8f0f51`
BLAKE2b-256	`adbdd995260f9677d71d8e73154195a4771101139a23b1198ebdad42e32eafb5`

See more details on using hashes here.

Provenance

The following attestation bundles were made for rdt-1.17.1.tar.gz:

Publisher: release.yml on sdv-dev/RDT

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: rdt-1.17.1.tar.gz
- Subject digest: 8d8dffb1193e21dcd264b2f613333ff9636c75c7f338da553a40b72b04e25d0c
- Sigstore transparency entry: 252239335
- Sigstore integration time: Jun 27, 2025
Source repository:
- Permalink: sdv-dev/RDT@a0a718bc1c47ffb9d207d9dc9166c31e98a138f9
- Branch / Tag: refs/tags/v1.17.1
- Owner: https://github.com/sdv-dev
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: release.yml@a0a718bc1c47ffb9d207d9dc9166c31e98a138f9
- Trigger Event: release

File details

Details for the file rdt-1.17.1-py3-none-any.whl.

File metadata

Download URL: rdt-1.17.1-py3-none-any.whl
Upload date: Jun 27, 2025
Size: 73.8 kB
Tags: Python 3
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for rdt-1.17.1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`2c57a02b6ab93af4be88bf2b25efbf4b6bce64bf48628436cc012df2e29465ef`
MD5	`4717d48579a3d490032385681706c910`
BLAKE2b-256	`1cdc1119c9826271a7328d09f74f754927f2cd8238f8358caf5fd20ba1ba3f90`

See more details on using hashes here.

Provenance

The following attestation bundles were made for rdt-1.17.1-py3-none-any.whl:

Publisher: release.yml on sdv-dev/RDT

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: rdt-1.17.1-py3-none-any.whl
- Subject digest: 2c57a02b6ab93af4be88bf2b25efbf4b6bce64bf48628436cc012df2e29465ef
- Sigstore transparency entry: 252239358
- Sigstore integration time: Jun 27, 2025
Source repository:
- Permalink: sdv-dev/RDT@a0a718bc1c47ffb9d207d9dc9166c31e98a138f9
- Branch / Tag: refs/tags/v1.17.1
- Owner: https://github.com/sdv-dev
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: release.yml@a0a718bc1c47ffb9d207d9dc9166c31e98a138f9
- Trigger Event: release

rdt 1.17.1

Navigation

Verified details

Project links

GitHub Statistics

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

Overview

Install

Quickstart

Load the demo data

Creating the HyperTransformer & config

Fitting & using the HyperTransformer

What's Next?

Project details

Verified details

Project links

GitHub Statistics

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

Provenance

File details

File metadata

File hashes

Provenance