Utility functions for processing TinyStories dataset by Eldan & Li

These details have not been verified by PyPI

Project links

Homepage

Project description

tinytok

DISCLAIMER: This README.md was written by ~~GPT~~ Grok | The docstrings for the functions were written by ~~GPT~~ Grok.

Simple utility funcs to process TinyStories by Eldan & Li, train a Byte-Pair Encoding (BPE) tokenizer, and create tokenized sequences to train tiny transformer models.

Primarily made for personal use.

Features

Read and concatenate .parquet text datasets
Optionally append EOS tokens and return raw text
Train a new BPE tokenizer with tokenizers library
Tokenize using the trained tokenizer into PyTorch tensors
Generate sequences for transformer model training

Installation

pip install tinytok==0.1.0

Example Usage

import torch
import os

os.environ["TOKENIZERS_PARALLELISM"] = "false"

from tinytok import data_process, tokenize, train_new_tokenizer_bpe, create_val_sequences, create_train_sequences_gen

file_1 = 'data/train1.parquet'
file_2 = 'data/train2.parquet'
file_3 = 'data/train3.parquet'
file_4 = 'data/train4.parquet'
file_val = 'data/validation.parquet'

file_train = [file_1, file_2, file_3, file_4]
file_val = [file_val]

# PARAMS -----------------
return_single_str = False
vocab_size = 10_000
special_tokens = {'eos': '<|endoftext|>', 'pad': ' '}
save_tokenizer_path = 'data/tokenizer.json'
context_len = 512
processes = 4
flat_tensor = True
flat_tensor_val = False
seq_tensor_size = 25_000
val_seq_tensor_size = None
max_toks = 350_000_000  
val_max_toks = None
batch_first = True

X_train_pth = 'data/tensors/train/X'
y_train_pth = 'data/tensors/train/y'
val_pth = 'data/tensors/val'

if __name__ == "__main__":
    os.makedirs(X_train_pth, exist_ok=True)
    os.makedirs(y_train_pth, exist_ok=True)
    os.makedirs(val_pth, exist_ok=True)
    
    data = data_process(
        files=file_train,
        eos_str=special_tokens['eos'],
        return_single_str=return_single_str,
        processes=processes
    )

    tokenizer = train_new_tokenizer_bpe(
        data=data['text'].tolist(),
        vocab_size=vocab_size,
        special_tokens=list(special_tokens.values()),
        save_path=save_tokenizer_path
    )
    
    data_tensor = tokenize(
        data=data,
        tokenizer=tokenizer,
        flat_tensor=flat_tensor,
        processes=processes
    )

    if isinstance(seq_tensor_size, int):
        sequence_generator = create_train_sequences_gen(
            data=data_tensor,
            context_len=context_len,
            seq_tensor_size=seq_tensor_size,
            max_toks=max_toks,
            processes=processes
        )
        for i, (X, y) in enumerate(sequence_generator):
            torch.save(X, os.path.join(X_train_pth, f'X_train_{i}.pt'))
            torch.save(y, os.path.join(y_train_pth, f'y_train_{i}.pt'))
            # if i == 10:
            #     sys.exit(0)
    elif not seq_tensor_size:
        X_train, y_train = create_train_sequences_gen(
            data=data_tensor,
            context_len=context_len,
            seq_tensor_size=seq_tensor_size,
            max_toks=max_toks,
            processes=processes
        )
        torch.save(X_train, os.path.join(X_train_pth, "X_train.pt"))
        torch.save(y_train, os.path.join(y_train_pth, "y_train.pt"))
        del X_train, y_train

    # Validation Data
    data = data_process(
        files=file_val,
        eos_str=special_tokens['eos'],
        return_single_str=return_single_str,
        processes=processes
    )

    data_tensor = tokenize(
        data=data,
        tokenizer=tokenizer,
        flat_tensor=flat_tensor_val,
        processes=processes
    )

    X_val, Y_val = create_val_sequences(
        data=data_tensor,
        batch_first=batch_first,
        padding_value=tokenizer.encode(special_tokens['pad']).ids[0]
    )
    
    torch.save(X_val, os.path.join(val_pth, 'X_val.pt'))
    torch.save(Y_val, os.path.join(val_pth, 'Y_val.pt'))

Requirements

torch
pandas
tqdm
tokenizers

Project details

These details have not been verified by PyPI

Project links

Homepage

Release history Release notifications | RSS feed

0.4.9

Jul 3, 2025

0.4.8

Jul 2, 2025

0.4.7

Jun 27, 2025

0.4.6

Jun 27, 2025

0.4.5

Jun 26, 2025

0.4.4

Jun 26, 2025

0.4.3

Jun 26, 2025

0.4.2

Jun 26, 2025

0.4.1

Jun 25, 2025

0.4.0

May 5, 2025

0.3.0

Apr 16, 2025

This version

0.2.0

Apr 8, 2025

0.1.0

Apr 8, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tinytok-0.2.0.tar.gz (6.4 kB view details)

Uploaded Apr 8, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

tinytok-0.2.0-py3-none-any.whl (6.4 kB view details)

Uploaded Apr 8, 2025 Python 3

File details

Details for the file tinytok-0.2.0.tar.gz.

File metadata

Download URL: tinytok-0.2.0.tar.gz
Upload date: Apr 8, 2025
Size: 6.4 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for tinytok-0.2.0.tar.gz
Algorithm	Hash digest
SHA256	`6cb176d7fc06c2603a73b259e4c90b37332e0d704c2c44a521757346c8b63464`
MD5	`c9b71bd2e1515dce08c47edb0edf0dd9`
BLAKE2b-256	`2bebe680b69ca663866aabfc6d498b0485504c3bbe76bc9895ef98a305f445cd`

See more details on using hashes here.

File details

Details for the file tinytok-0.2.0-py3-none-any.whl.

File metadata

Download URL: tinytok-0.2.0-py3-none-any.whl
Upload date: Apr 8, 2025
Size: 6.4 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.2

File hashes

Hashes for tinytok-0.2.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`4279916909c2f9fd7a2d8f559907f0cf501520c9d5c85c1ad0d7d26447c557ec`
MD5	`a1bab9d8c3eee690e1493a51386851a8`
BLAKE2b-256	`65312eec66b17ae4843faef17d0a4a1e13bb55da6a1d32875ebb74498980f155`

See more details on using hashes here.

tinytok 0.2.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

tinytok

Features

Installation

Example Usage

Requirements

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes