ml-dataloader

No project description provided

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

ml-dataloader is an efficient and flexible data loading pipeline for deep learning, written in pure Python.

Install

pip install ml-dataloader

Examples (similar to Pytorch-dataloader)

suppose data store in python list

from dataloader.dataset import Dataset
from dataloader.dataloader import DataLoader
from dataloader.util.data_kind import DataKind

data = list(range(10))
kind = DataKind.MEM_SEQ
dataset = Dataset(data, kind)

dl = DataLoader(dataset, batch_size=2, shuffle=False)
for batch in dl:
    print(batch)

# tf.Tensor([0 1], shape=(2,), dtype=int32)
# tf.Tensor([2 3], shape=(2,), dtype=int32)
# tf.Tensor([4 5], shape=(2,), dtype=int32)
# tf.Tensor([6 7], shape=(2,), dtype=int32)
# tf.Tensor([8 9], shape=(2,), dtype=int32)

suppose train.tsv storing the data

from dataloader.dataset import Dataset
from dataloader.dataloader import DataLoader
from dataloader.util.data_kind import DataKind

filename = 'train.tsv'
kind = DataKind.FILE
dataset = Dataset(filename, kind)

dl = DataLoader(dataset, batch_size=2, shuffle=True)
for batch in dl:
    print(batch)

suppose train.tsv storing the data and using mmap

import os
import mmap

from dataloader.dataset import Dataset
from dataloader.dataloader import DataLoader
from dataloader.util.data_kind import DataKind

filename = 'train.tsv'

fp = open(filename, 'rb', os.O_RDONLY)
mm = mmap(fp.fileno(), 0,  access=mmap.ACCESS_READ)
fp.close()

kind = DataKind.MMAP_FILE
dataset = Dataset(mm, kind, filename=filename)

dl = DataLoader(dataset, batch_size=2, shuffle=True)
for batch in dl:
    print(batch)

NOTES:

if transform is slow, the dataloader will be stuck while num_workers > 0

Examples with Pipeline (similar to Tensorpack-dataflow)

suppose data store in python list

from dataloader.pipeline.dataset import Dataset
from dataloader.pipeline.dataloader import DataLoader
from dataloader.pipeline.processor import MapDataProcessKind
from dataloader.util.data_kind import DataKind

data = list(range(10))
kind = DataKind.MEM_SEQ
dataset = Dataset(data, kind)

dl = DataLoader(dataset, batch_size=2, shuffle=False, processor_kind=MapDataProcessKind.NORMAL)
for batch in dl:
    print(batch)

# tf.Tensor([0 1], shape=(2,), dtype=int32)
# tf.Tensor([2 3], shape=(2,), dtype=int32)
# tf.Tensor([4 5], shape=(2,), dtype=int32)
# tf.Tensor([6 7], shape=(2,), dtype=int32)
# tf.Tensor([8 9], shape=(2,), dtype=int32)

suppose train.tsv storing the data

from dataloader.pipeline.dataset import Dataset
from dataloader.pipeline.dataloader import DataLoader
from dataloader.pipeline.processor import MapDataProcessKind
from dataloader.util.data_kind import DataKind

filename = 'train.tsv'
kind = DataKind.FILE
dataset = Dataset(filename, kind)

dl = DataLoader(dataset, batch_size=2, shuffle=True, processor_kind=MapDataProcessKind.MULTI_PROCESS, num_procs=20)
for batch in dl:
    print(batch)

suppose train.tsv storing the data and using mmap

import os
import mmap

from dataloader.pipeline.dataset import Dataset
from dataloader.pipeline.dataloader import DataLoader
from dataloader.pipeline.processor import MapDataProcessKind
from dataloader.util.data_kind import DataKind

filename = 'train.tsv'

fp = open(filename, 'rb', os.O_RDONLY)
mm = mmap(fp.fileno(), 0,  access=mmap.ACCESS_READ)
fp.close()

kind = DataKind.MMAP_FILE
dataset = Dataset(mm, kind, filename=filename)

dl = DataLoader(dataset, batch_size=2, shuffle=True, processor_kind=MapDataProcessKind.MULTI_PROCESS, num_procs=20)
for batch in dl:
    print(batch)

NOTES:

the fully supported parameters, pls ref to DataLoader definition
with MultiThreadMapData/MultiProcessMapDataZMQ, the order won’t be kept as defined in dataset
in order to keep order as defined in Dataset, MapData can be used, but it could be slow compare with MultiThreadMapData and MultiProcessMapDataZMQ. Another way, process the data with pool_transform, then pass the processed data as DataKind.MEM_SEQ kind into Dataset, i.e., dataset = Dataset(processed, DataKind.MEM_SEQ), and avoid using MultiThreadMapData/MultiProcessMapDataZMQ

Refs:

FAQ

1 出现 [__NSPlaceholderDate initialize] may have been in progress in another thread when fork() 如何解决?

通常只在 Mac 上出现, export OBJC_DISABLE_INITIALIZE_FORK_SAFETY=YES 即可

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.9.0

Oct 25, 2022

0.8.0

Oct 21, 2022

0.7.0

Sep 30, 2022

0.6.0

Sep 2, 2022

0.5.9

Sep 1, 2022

0.5.8

Sep 1, 2022

0.5.7

Jul 28, 2022

0.5.6

Jul 20, 2022

0.5.5

Jul 19, 2022

0.5.4

Jul 19, 2022

0.5.2

Oct 15, 2021

0.5.1

Oct 13, 2021

0.5.0

Sep 22, 2021

0.4.0

Sep 20, 2021

0.3.4

Sep 20, 2021

0.3.3

Sep 20, 2021

0.3.2

Sep 20, 2021

This version

0.3.1

Sep 20, 2021

0.3.0

Sep 20, 2021

0.2.9

Sep 20, 2021

0.2.8

Sep 20, 2021

0.2.7

Sep 20, 2021

0.2.6

Sep 20, 2021

0.2.5

Aug 12, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ml-dataloader-0.3.1.tar.gz (27.9 kB view hashes)

Uploaded Sep 20, 2021 Source

Hashes for ml-dataloader-0.3.1.tar.gz

Hashes for ml-dataloader-0.3.1.tar.gz
Algorithm	Hash digest
SHA256	`846b2fcd7cf1fe266f55cd7269dc07ff8f470f917fbdf2b4db1a268739ab0b74`
MD5	`656a2fe0f102995bbcf4ef5d1151b7df`
BLAKE2b-256	`73ac03ba5c0b969c24b73e77b54fb2cd6e3b183f480b6ec5f11e6005bd9c1885`