Library for utilization of compressed safetensors of neural network models

Project description

compressed-tensors

The compressed-tensors library extends the safetensors format, providing a versatile and efficient way to store and manage compressed tensor data. This library supports various quantization and sparsity schemes, making it a unified format for handling different model optimizations like GPTQ, AWQ, SmoothQuant, INT8, FP8, SparseGPT, and more.

Why `compressed-tensors`?

As model compression becomes increasingly important for efficient deployment of LLMs, the landscape of quantization and compression techniques has become increasingly fragmented. Each method often comes with its own storage format and loading procedures, making it challenging to work with multiple techniques or switch between them. compressed-tensors addresses this by providing a single, extensible format that can represent a wide variety of compression schemes.

Unified Checkpoint Format: Supports various compression schemes in a single, consistent format.
Wide Compatibility: Works with popular quantization methods like GPTQ, SmoothQuant, and FP8. See llm-compressor
Flexible Quantization Support:
- Weight-only quantization (e.g., W4A16, W8A16, WnA16)
- Activation quantization (e.g., W8A8)
- KV cache quantization
- Non-uniform schemes (different layers can be quantized in different ways!)
Sparsity Support: Handles both unstructured and semi-structured (e.g., 2:4) sparsity patterns.
Open-Source Integration: Designed to work seamlessly with Hugging Face models and PyTorch.

This allows developers and researchers to easily experiment with composing different quantization methods, simplify model deployment pipelines, and reduce the overhead of supporting multiple compression formats in inference engines.

Installation

From PyPI

Stable release:

pip install compressed-tensors

Nightly release:

pip install --pre compressed-tensors

From Source

git clone https://github.com/neuralmagic/compressed-tensors
cd compressed-tensors
pip install -e .

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

The function save_compressed uses the compression_format argument to apply compression to tensors. The function load_compressed reverses the process: converts the compressed weights on disk to decompressed weights in device memory.

from compressed_tensors import save_compressed, load_compressed, BitmaskConfig
from torch import Tensor
from typing import Dict

# the example BitmaskConfig method efficiently compresses 
# tensors with large number of zero entries 
compression_config = BitmaskConfig()

tensors: Dict[str, Tensor] = {"tensor_1": Tensor(
    [[0.0, 0.0, 0.0], 
     [1.0, 1.0, 1.0]]
)}
# compress tensors using BitmaskConfig compression format (save them efficiently on disk)
save_compressed(tensors, "model.safetensors", compression_format=compression_config.format)

# decompress tensors (load_compressed returns a generator for memory efficiency)
decompressed_tensors = {}
for tensor_name, tensor in load_compressed("model.safetensors", compression_config = compression_config):
    decompressed_tensors[tensor_name] = tensor

Saving/Loading Compressed Models (Bitmask Compression)

We can apply bitmask compression to a whole model. For more detailed example see example directory.

from compressed_tensors import save_compressed_model, load_compressed, BitmaskConfig
from transformers import AutoModelForCausalLM

model_name = "neuralmagic/llama2.c-stories110M-pruned50"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto")

original_state_dict = model.state_dict()

compression_config = BitmaskConfig()

# save compressed model weights
save_compressed_model(model, "compressed_model.safetensors", compression_format=compression_config.format)

# load compressed model weights (`dict` turns generator into a dictionary)
state_dict = dict(load_compressed("compressed_model.safetensors", compression_config))

For more in-depth tutorial on bitmask compression, refer to the notebook.

Saving a Compressed Model with PTQ

We can use compressed-tensors to run basic post training quantization (PTQ) and save the quantized model compressed on disk

model_name = "TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T"
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda:0", torch_dtype="auto")

config = QuantizationConfig.parse_file("./examples/bit_packing/int4_config.json")
config.quantization_status = QuantizationStatus.CALIBRATION
apply_quantization_config(model, config)

dataset = load_dataset("ptb_text_only")["train"]
tokenizer = AutoTokenizer.from_pretrained(model_name)

def tokenize_function(examples):
    return tokenizer(examples["sentence"], padding=False, truncation=True, max_length=1024)

tokenized_dataset = dataset.map(tokenize_function, batched=True)
data_loader = DataLoader(tokenized_dataset, batch_size=1, collate_fn=DefaultDataCollator())

with torch.no_grad():
    for idx, sample in tqdm(enumerate(data_loader), desc="Running calibration"):
        sample = {key: value.to(device) for key,value in sample.items()}
        _ = model(**sample)

        if idx >= 512:
            break

model.apply(freeze_module_quantization)
model.apply(compress_quantized_weights)

output_dir = "./ex_llama1.1b_w4a16_packed_quantize"
compressor = ModelCompressor(quantization_config=config)
compressed_state_dict = compressor.compress(model)
model.save_pretrained(output_dir, state_dict=compressed_state_dict)

For more in-depth tutorial on quantization compression, refer to the notebook.

Project details

Release history Release notifications | RSS feed

0.10.3a20250620 pre-release

Jun 24, 2025

This version

0.10.2

Jun 23, 2025

0.10.2a20250620 pre-release

Jun 21, 2025

0.10.2a20250617 pre-release

Jun 18, 2025

0.10.2a20250616 pre-release

Jun 17, 2025

0.10.2a20250613 pre-release

Jun 14, 2025

0.10.2a20250612 pre-release

Jun 13, 2025

0.10.2a20250611 pre-release

Jun 12, 2025

0.10.2a20250609 pre-release

Jun 10, 2025

0.10.2a20250606 pre-release

Jun 6, 2025

0.10.1

Jun 6, 2025

0.10.1a20250605 pre-release

Jun 6, 2025

0.10.1a20250604 pre-release

Jun 5, 2025

0.10.0

Jun 5, 2025

0.9.5a20250604 pre-release

Jun 5, 2025

0.9.5a20250603 pre-release

Jun 4, 2025

0.9.5a20250602 pre-release

Jun 3, 2025

0.9.5a20250530 pre-release

May 31, 2025

0.9.5a20250528 pre-release

May 29, 2025

0.9.5a20250521 pre-release

May 22, 2025

0.9.5a20250520 pre-release

May 21, 2025

0.9.5a20250519 pre-release

May 20, 2025

0.9.5a20250514 pre-release

May 15, 2025

0.9.5a20250513 pre-release

May 14, 2025

0.9.5a20250512 pre-release

May 13, 2025

0.9.5a20250509 pre-release

May 10, 2025

0.9.5a20250507 pre-release

May 8, 2025

0.9.5a20250502 pre-release

May 3, 2025

0.9.5a20250428 pre-release

Apr 29, 2025

0.9.5a20250425 pre-release

Apr 28, 2025

0.9.5a20250424 pre-release

Apr 25, 2025

0.9.4

Apr 24, 2025

0.9.4a20250421 pre-release

Apr 23, 2025

0.9.4a20250414 pre-release

Apr 15, 2025

0.9.4a20250412 pre-release

Apr 12, 2025

0.9.4a20250410 pre-release

Apr 11, 2025

0.9.4a20250408 pre-release

Apr 9, 2025

0.9.3

Apr 2, 2025

0.9.2

Feb 18, 2025

0.9.1

Jan 23, 2025

0.9.0

Jan 15, 2025

0.8.1

Dec 11, 2024

0.8.0

Nov 12, 2024

0.7.1

Oct 17, 2024

0.7.0

Oct 9, 2024

0.6.0

Sep 23, 2024

0.5.0

Aug 8, 2024

0.4.0

Jun 21, 2024

0.3.3

May 7, 2024

0.3.2

Apr 29, 2024

0.3.1

Apr 25, 2024

0.3.0

Apr 25, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

compressed_tensors-0.10.2.tar.gz (173.5 kB view details)

Uploaded Jun 23, 2025 Source

Built Distribution

compressed_tensors-0.10.2-py3-none-any.whl (169.0 kB view details)

Uploaded Jun 23, 2025 Python 3

File details

Details for the file compressed_tensors-0.10.2.tar.gz.

File metadata

Download URL: compressed_tensors-0.10.2.tar.gz
Upload date: Jun 23, 2025
Size: 173.5 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.10.12

File hashes

Hashes for compressed_tensors-0.10.2.tar.gz
Algorithm	Hash digest
SHA256	`6de13ac535d7ffdd8890fad3d229444c33076170acaa8fab6bab8ecfa96c1d8f`
MD5	`96c16fc538c5fa6772dfc2e5636eb355`
BLAKE2b-256	`c086d43d369abc81ec63ec7b8f6f27fc8b113ea0fd18a4116ae12063387b8b34`

See more details on using hashes here.

File details

Details for the file compressed_tensors-0.10.2-py3-none-any.whl.

File metadata

Download URL: compressed_tensors-0.10.2-py3-none-any.whl
Upload date: Jun 23, 2025
Size: 169.0 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.10.12

File hashes

Hashes for compressed_tensors-0.10.2-py3-none-any.whl
Algorithm	Hash digest
SHA256	`e1b4d9bc2006e3fd3a938e59085f318fdb280c5af64688a4792bf1bc263e579d`
MD5	`5ce9b858e603eae890b1c9ba15947876`
BLAKE2b-256	`43ac56bb4b6b3150783119479e2f05e32ebfc39ca6ff8e6fcd45eb178743b39e`

See more details on using hashes here.

compressed-tensors 0.10.2

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

compressed-tensors

Why `compressed-tensors`?

Installation

From PyPI

From Source

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

Saving/Loading Compressed Models (Bitmask Compression)

Saving a Compressed Model with PTQ

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

compressed-tensors 0.10.2

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

compressed-tensors

Why compressed-tensors?

Installation

From PyPI

From Source

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

Saving/Loading Compressed Models (Bitmask Compression)

Saving a Compressed Model with PTQ

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

Why `compressed-tensors`?