MMDS: A general-purpose multimodal dataset wrapper.

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

MMDS: A general-purpose multimodal dataset wrapper

This project is under construction, API may change from time to time.

Installation

Stable (not stable yet though)

pip install mmds

Latest

pip install mmds --pre

Example Usage

# example.py

import timeit
from pathlib import Path
from multiprocessing import Manager

from mmds import MultimodalDataset, MultimodalSample
from mmds.exceptions import PackageNotFoundError
from mmds.modalities.rgbs import RgbsModality
from mmds.modalities.wav import WavModality
from mmds.modalities.mel import MelModality
from mmds.modalities.f0 import F0Modality
from mmds.modalities.ge2e import Ge2eModality
from mmds.utils.spectrogram import LogMelSpectrogram


try:
    import youtube_dl
    import ffmpeg
    import torch
    from torchvision import transforms
except ImportError:
    raise PackageNotFoundError(
        "youtube_dl",
        "ffmpeg-python",
        "torch",
        "torchvision",
        by="example.py",
    )


def download():
    Path("data").mkdir(exist_ok=True)

    ydl_opts = {
        "postprocessors": [
            {
                "key": "FFmpegExtractAudio",
                "preferredcodec": "mp3",
                "preferredquality": "192",
            }
        ],
        "postprocessor_args": ["-ar", "16000"],
        "outtmpl": "data/%(id)s.%(ext)s",
        "keepvideo": True,
    }
    with youtube_dl.YoutubeDL(ydl_opts) as ydl:
        ydl.download(["https://www.youtube.com/watch?v=BaW_jenozKc"])

    path = Path("data/BaW_jenozKc")

    if not path.exists():
        path.mkdir(exist_ok=True)

        (
            ffmpeg.input("data/BaW_jenozKc.mp4")
            .filter("fps", fps="25")
            .output("data/BaW_jenozKc/%06d.png", start_number=0)
            .overwrite_output()
            .run(quiet=True)
        )


class MyMultimodalSample(MultimodalSample):
    def generate_info(self):
        wav_modality = self.get_modality_by_name("wav")
        rgbs_modality = self.get_modality_by_name("rgbs")
        return dict(
            t0=0,
            t1=wav_modality.duration / 10,
            original_wav_seconds=wav_modality.duration,
            original_rgbs_seconds=rgbs_modality.duration,
        )


class MyMultimodalDataset(MultimodalDataset):
    Sample = MyMultimodalSample


def main():
    download()

    # optional multiprocessing cache manager
    manager = Manager()

    dataset = MyMultimodalDataset(
        ["BaW_jenozKc"],
        modality_factories=[
            RgbsModality.create_factory(
                name="rgbs",
                root="data",
                suffix="*.png",
                sample_rate=25,
                transform=transforms.Compose(
                    [
                        transforms.Resize((28, 28)),
                        transforms.ToTensor(),
                        transforms.Normalize(0.5, 1),
                    ],
                ),
                aggragate=torch.stack,
                cache=manager.dict(),
            ),
            WavModality.create_factory(
                name="wav",
                root="data",
                suffix=".mp3",
                sample_rate=16_000,
                cache=manager.dict(),
            ),
            MelModality.create_factory(
                name="mel",
                root="data",
                suffix=".mel.npz",
                mel_fn=LogMelSpectrogram(sample_rate=16_000),
                base_modality_name="wav",
                cache=manager.dict(),
            ),
            F0Modality.create_factory(
                name="f0",
                root="data",
                suffix=".f0.npz",
                mel_fn=LogMelSpectrogram(sample_rate=16_000),
                base_modality_name="wav",
                cache=manager.dict(),
            ),
            Ge2eModality.create_factory(
                name="ge2e",
                root="data",
                suffix=".ge2e.npz",
                sample_rate=16_000,
                base_modality_name="wav",
                cache=manager.dict(),
                fetching=False,
            ),
        ],
    )

    # first load
    print(timeit.timeit(lambda: dataset[0], number=1))

    # second load
    print(timeit.timeit(lambda: dataset[0], number=1))

    print(dataset[0]["info"])

    for key, value in dataset[0].items():
        try:
            print(key, value.shape, type(value))
        except:
            pass


if __name__ == "__main__":
    main()

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

This version

0.0.1.dev20220108134301 pre-release

Jan 8, 2022

0.0.1.dev20220101180735 pre-release

Jan 1, 2022

0.0.1.dev20211223151842 pre-release

Dec 23, 2021

0.0.1.dev20211223132638 pre-release

Dec 23, 2021

0.0.1.dev20211222221349 pre-release

Dec 22, 2021

0.0.1.dev20211222150751 pre-release

Dec 22, 2021

0.0.1.dev20211222145639 pre-release

Dec 22, 2021

0.0.1.dev20211222145341 pre-release

Dec 22, 2021

0.0.1.dev20211222130857 pre-release

Dec 22, 2021

0.0.1.dev20211221204544 pre-release

Dec 21, 2021

0.0.1.dev20211221204032 pre-release

Dec 21, 2021

0.0.1.dev20211221202826 pre-release

Dec 21, 2021

0.0.1.dev20211219222150 pre-release

Dec 19, 2021

0.0.1.dev20211205220327 pre-release

Dec 5, 2021

0.0.1.dev20211205215931 pre-release

Dec 5, 2021

0.0.1.dev20211205132307 pre-release

Dec 5, 2021

0.0.1.dev20211129204706 pre-release

Nov 29, 2021

0.0.1.dev20211118111139 pre-release

Nov 18, 2021

0.0.1.dev20211118105448 pre-release

Nov 18, 2021

0.0.1.dev20211105003147 pre-release

Nov 4, 2021

0.0.1.dev20211105002757 pre-release

Nov 4, 2021

0.0.1.dev20211105001712 pre-release

Nov 4, 2021

0.0.1.dev20211030214613 pre-release

Oct 30, 2021

0.0.1.dev20211027122442 pre-release

Oct 27, 2021

0.0.1.dev20211026202650 pre-release

Oct 26, 2021

0.0.1.dev20211026124340 pre-release

Oct 26, 2021

0.0.1.dev20211021172524 pre-release

Oct 21, 2021

0.0.1.dev20211021143011 pre-release

Oct 21, 2021

0.0.1.dev20211020213045 pre-release

Oct 20, 2021

0.0.1.dev20211020121735 pre-release

Oct 20, 2021

0.0.1.dev20211015191110 pre-release

Oct 15, 2021

0.0.1.dev20211015190236 pre-release

Oct 15, 2021

0.0.1.dev20211014125153 pre-release

Oct 14, 2021

0.0.1.dev20211009121856 pre-release

Oct 9, 2021

0.0.1.dev20211009120543 pre-release

Oct 9, 2021

0.0.1.dev20211008002639 pre-release

Oct 7, 2021

0.0.1.dev20211007193612 pre-release

Oct 7, 2021

0.0.1.dev20211007193505 pre-release

Oct 7, 2021

0.0.1.dev20211004160220 pre-release

Oct 4, 2021

0.0.1.dev20211003212456 pre-release

Oct 3, 2021

0.0.1.dev20211003201421 pre-release

Oct 3, 2021

0.0.1.dev20211003190151 pre-release

Oct 3, 2021

0.0.1.dev20211003171738 pre-release

Oct 3, 2021

0.0.1.dev20211003162211 pre-release

Oct 3, 2021

0.0.1.dev20211003155625 pre-release

Oct 3, 2021

0.0.1.dev20211003151540 pre-release

Oct 3, 2021

0.0.1.dev20211003151509 pre-release

Oct 3, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mmds-0.0.1.dev20220108134301.tar.gz (13.1 kB view hashes)

Uploaded Jan 8, 2022 Source

Built Distribution

mmds-0.0.1.dev20220108134301-py3-none-any.whl (16.6 kB view hashes)

Uploaded Jan 8, 2022 Python 3

Hashes for mmds-0.0.1.dev20220108134301.tar.gz

Hashes for mmds-0.0.1.dev20220108134301.tar.gz
Algorithm	Hash digest
SHA256	`c634e94db5eb80a7fc2f37f580bf52a773937ecda424c33b51181887e3907a64`
MD5	`f761c09f56a9e1a59e3cff9938d94e9e`
BLAKE2b-256	`16b446dc6798bad8dc613aa6cd39671b5b14b59fee0a0d53f2109f5cc151e7e1`

Hashes for mmds-0.0.1.dev20220108134301-py3-none-any.whl

Hashes for mmds-0.0.1.dev20220108134301-py3-none-any.whl
Algorithm	Hash digest
SHA256	`56e1b3fa6f9a9455b0567a892562a824b696eecc01cf4edad0a8b34993e09c00`
MD5	`9ed478ab96ff59429b1bc63944bece16`
BLAKE2b-256	`6839ac63d195800f1c9041a79f2b63f5a9e19ff1e634bbce50fd8ffcf6d332f3`