Library for utilization of compressed safetensors of neural network models

Project description

compressed-tensors

The compressed-tensors library extends the safetensors format, providing a versatile and efficient way to store and manage compressed tensor data. This library supports various quantization and sparsity schemes, making it a unified format for handling different model optimizations like GPTQ, AWQ, SmoothQuant, INT8, FP8, SparseGPT, and more.

Why `compressed-tensors`?

As model compression becomes increasingly important for efficient deployment of LLMs, the landscape of quantization and compression techniques has become increasingly fragmented. Each method often comes with its own storage format and loading procedures, making it challenging to work with multiple techniques or switch between them. compressed-tensors addresses this by providing a single, extensible format that can represent a wide variety of compression schemes.

Unified Checkpoint Format: Supports various compression schemes in a single, consistent format.
Wide Compatibility: Works with popular quantization methods like GPTQ, SmoothQuant, and FP8. See llm-compressor
Flexible Quantization Support:
- Weight-only quantization (e.g., W4A16, W8A16, WnA16)
- Activation quantization (e.g., W8A8)
- KV cache quantization
- Non-uniform schemes (different layers can be quantized in different ways!)
Sparsity Support: Handles both unstructured and semi-structured (e.g., 2:4) sparsity patterns.
Open-Source Integration: Designed to work seamlessly with Hugging Face models and PyTorch.

This allows developers and researchers to easily experiment with composing different quantization methods, simplify model deployment pipelines, and reduce the overhead of supporting multiple compression formats in inference engines.

Installation

From PyPI

Stable release:

pip install compressed-tensors

Nightly release:

pip install --pre compressed-tensors

From Source

git clone https://github.com/vllm-project/compressed-tensors
cd compressed-tensors
pip install -e .

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

The function save_compressed uses the compression_format argument to apply compression to tensors. The function load_compressed reverses the process: converts the compressed weights on disk to decompressed weights in device memory.

from compressed_tensors import save_compressed, load_compressed, BitmaskConfig
from torch import Tensor
from typing import Dict

# the example BitmaskConfig method efficiently compresses 
# tensors with large number of zero entries 
compression_config = BitmaskConfig()

tensors: Dict[str, Tensor] = {"tensor_1": Tensor(
    [[0.0, 0.0, 0.0], 
     [1.0, 1.0, 1.0]]
)}
# compress tensors using BitmaskConfig compression format (save them efficiently on disk)
save_compressed(tensors, "model.safetensors", compression_format=compression_config.format)

# decompress tensors (load_compressed returns a generator for memory efficiency)
decompressed_tensors = {}
for tensor_name, tensor in load_compressed("model.safetensors", compression_config = compression_config):
    decompressed_tensors[tensor_name] = tensor

Saving/Loading Compressed Models (Bitmask Compression)

We can apply bitmask compression to a whole model. For more detailed example see example directory.

from compressed_tensors import save_compressed_model, load_compressed, BitmaskConfig
from transformers import AutoModelForCausalLM

model_name = "RedHatAI/llama2.c-stories110M-pruned50"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto")

original_state_dict = model.state_dict()

compression_config = BitmaskConfig()

# save compressed model weights
save_compressed_model(model, "compressed_model.safetensors", compression_format=compression_config.format)

# load compressed model weights (`dict` turns generator into a dictionary)
state_dict = dict(load_compressed("compressed_model.safetensors", compression_config))

For more in-depth tutorial on bitmask compression, refer to the notebook.

Saving a Compressed Model with PTQ

We can use compressed-tensors to run basic post training quantization (PTQ) and save the quantized model compressed on disk

model_name = "TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T"
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda:0", torch_dtype="auto")

config = QuantizationConfig.parse_file("./examples/bit_packing/int4_config.json")
config.quantization_status = QuantizationStatus.CALIBRATION
apply_quantization_config(model, config)

dataset = load_dataset("ptb_text_only")["train"]
tokenizer = AutoTokenizer.from_pretrained(model_name)

def tokenize_function(examples):
    return tokenizer(examples["sentence"], padding=False, truncation=True, max_length=1024)

tokenized_dataset = dataset.map(tokenize_function, batched=True)
data_loader = DataLoader(tokenized_dataset, batch_size=1, collate_fn=DefaultDataCollator())

with torch.no_grad():
    for idx, sample in tqdm(enumerate(data_loader), desc="Running calibration"):
        sample = {key: value.to(device) for key,value in sample.items()}
        _ = model(**sample)

        if idx >= 512:
            break

model.apply(freeze_module_quantization)
model.apply(compress_quantized_weights)

output_dir = "./ex_llama1.1b_w4a16_packed_quantize"
compressor = ModelCompressor(quantization_config=config)
compressed_state_dict = compressor.compress(model)
model.save_pretrained(output_dir, state_dict=compressed_state_dict)

For more in-depth tutorial on quantization compression, refer to the notebook.

Project details

Release history Release notifications | RSS feed

0.17.2a20260626 pre-release

Jun 27, 2026

0.17.2a20260623 pre-release

Jun 25, 2026

0.17.2a20260622 pre-release

Jun 23, 2026

0.17.2a20260618 pre-release

Jun 19, 2026

0.17.2a20260616 pre-release

Jun 17, 2026

0.17.2a20260611 pre-release

Jun 11, 2026

0.17.1

Jun 11, 2026

0.17.1a20260610 pre-release

Jun 11, 2026

0.17.1a20260604 pre-release

Jun 5, 2026

0.17.1a20260602 pre-release

Jun 3, 2026

0.17.0

Jun 3, 2026

0.16.1a20260602 pre-release

Jun 3, 2026

0.16.1a20260529 pre-release

May 31, 2026

0.16.1a20260526 pre-release

May 28, 2026

0.16.0

May 28, 2026

0.15.1a20260526 pre-release

May 27, 2026

0.15.1a20260521 pre-release

May 22, 2026

0.15.1a20260520 pre-release

May 21, 2026

0.15.1a20260515 pre-release

May 16, 2026

0.15.1a20260503 pre-release

May 6, 2026

0.15.1a20260428 pre-release

Apr 29, 2026

0.15.1a20260421 pre-release

Apr 24, 2026

0.15.1a20260416 pre-release

Apr 17, 2026

0.15.1a20260414 pre-release

Apr 15, 2026

0.15.1a20260413 pre-release

Apr 14, 2026

0.15.1a20260409 pre-release

Apr 9, 2026

0.15.1a20260406 pre-release

Apr 8, 2026

0.15.0.1

Apr 10, 2026

0.15.0

Apr 8, 2026

0.14.1a20260406 pre-release

Apr 7, 2026

0.14.1a20260326 pre-release

Mar 27, 2026

0.14.1a20260325 pre-release

Mar 25, 2026

0.14.1a20260323 pre-release

Mar 24, 2026

0.14.1a20260320 pre-release

Mar 22, 2026

0.14.1a20260317 pre-release

Mar 18, 2026

0.14.1a20260313 pre-release

Mar 16, 2026

0.14.1a20260310 pre-release

Mar 11, 2026

0.14.1a20260309 pre-release

Mar 10, 2026

0.14.1a20260306 pre-release

Mar 7, 2026

0.14.1a20260305 pre-release

Mar 5, 2026

0.14.1a20260225 pre-release

Feb 27, 2026

0.14.0.1

Mar 11, 2026

0.14.0

Feb 27, 2026

0.13.1a20260225 pre-release

Feb 26, 2026

0.13.1a20260223 pre-release

Feb 24, 2026

0.13.1a20260219 pre-release

Feb 20, 2026

0.13.1a20260218 pre-release

Feb 19, 2026

0.13.1a20260217 pre-release

Feb 18, 2026

0.13.1a20260212 pre-release

Feb 13, 2026

0.13.1a20260211 pre-release

Feb 12, 2026

0.13.1a20260210 pre-release

Feb 11, 2026

0.13.1a20260209 pre-release

Feb 10, 2026

0.13.1a20260205 pre-release

Feb 8, 2026

0.13.1a20260203 pre-release

Feb 4, 2026

0.13.1a20260130 pre-release

Jan 30, 2026

0.13.1a20260127 pre-release

Jan 28, 2026

This version

0.13.1a20260123 pre-release

Jan 24, 2026

0.13.1a20260116 pre-release

Jan 19, 2026

0.13.1a20260115 pre-release

Jan 16, 2026

0.13.1a20260109 pre-release

Jan 10, 2026

0.13.1a20260108 pre-release

Jan 9, 2026

0.13.1a20251215 pre-release

Dec 16, 2025

0.13.0

Dec 16, 2025

0.12.3a20251215 pre-release

Dec 16, 2025

0.12.3a20251214 pre-release

Dec 15, 2025

0.12.3a20251212 pre-release

Dec 13, 2025

0.12.3a20251203 pre-release

Dec 4, 2025

0.12.3a20251114 pre-release

Nov 15, 2025

0.12.3a20251110 pre-release

Nov 11, 2025

0.12.3a20251030 pre-release

Nov 1, 2025

0.12.3a20251028 pre-release

Oct 28, 2025

0.12.3a20251023 pre-release

Oct 24, 2025

0.12.3a20251013 pre-release

Oct 14, 2025

0.12.3a20251010 pre-release

Oct 11, 2025

0.12.3a20251009 pre-release

Oct 10, 2025

0.12.3a20251008 pre-release

Oct 9, 2025

0.12.3a20251007 pre-release

Oct 8, 2025

0.12.3a20251003 pre-release

Oct 7, 2025

0.12.2

Oct 7, 2025

0.12.2a20251003 pre-release

Oct 5, 2025

0.12.2a20251002 pre-release

Oct 2, 2025

0.12.1

Oct 2, 2025

0.12.1a20251001 pre-release

Oct 1, 2025

0.12.0

Oct 1, 2025

0.11.1a20250929 pre-release

Sep 30, 2025

0.11.1a20250923 pre-release

Sep 25, 2025

0.11.1a20250918 pre-release

Sep 19, 2025

0.11.1a20250917 pre-release

Sep 18, 2025

0.11.1a20250912 pre-release

Sep 13, 2025

0.11.1a20250911 pre-release

Sep 12, 2025

0.11.1a20250910 pre-release

Sep 11, 2025

0.11.1a20250909 pre-release

Sep 10, 2025

0.11.1a20250908 pre-release

Sep 9, 2025

0.11.1a20250904 pre-release

Sep 5, 2025

0.11.1a20250903 pre-release

Sep 4, 2025

0.11.1a20250902 pre-release

Sep 3, 2025

0.11.1a20250828 pre-release

Aug 29, 2025

0.11.1a20250821 pre-release

Aug 22, 2025

0.11.1a20250820 pre-release

Aug 21, 2025

0.11.1a20250819 pre-release

Aug 19, 2025

0.11.0

Aug 19, 2025

0.10.3a20250815 pre-release

Aug 16, 2025

0.10.3a20250814 pre-release

Aug 15, 2025

0.10.3a20250812 pre-release

Aug 13, 2025

0.10.3a20250811 pre-release

Aug 12, 2025

0.10.3a20250806 pre-release

Aug 8, 2025

0.10.3a20250805 pre-release

Aug 6, 2025

0.10.3a20250731 pre-release

Aug 1, 2025

0.10.3a20250728 pre-release

Jul 29, 2025

0.10.3a20250724 pre-release

Jul 25, 2025

0.10.3a20250721 pre-release

Jul 22, 2025

0.10.3a20250716 pre-release

Jul 17, 2025

0.10.3a20250715 pre-release

Jul 16, 2025

0.10.3a20250711 pre-release

Jul 12, 2025

0.10.3a20250710 pre-release

Jul 11, 2025

0.10.3a20250709 pre-release

Jul 10, 2025

0.10.3a20250708 pre-release

Jul 9, 2025

0.10.3a20250707 pre-release

Jul 8, 2025

0.10.3a20250703 pre-release

Jul 4, 2025

0.10.3a20250701 pre-release

Jul 3, 2025

0.10.3a20250620 pre-release

Jun 24, 2025

0.10.2

Jun 23, 2025

0.10.2a20250620 pre-release

Jun 21, 2025

0.10.2a20250617 pre-release

Jun 18, 2025

0.10.2a20250616 pre-release

Jun 17, 2025

0.10.2a20250613 pre-release

Jun 14, 2025

0.10.2a20250612 pre-release

Jun 13, 2025

0.10.2a20250611 pre-release

Jun 12, 2025

0.10.2a20250609 pre-release

Jun 10, 2025

0.10.2a20250606 pre-release

Jun 6, 2025

0.10.1

Jun 6, 2025

0.10.1a20250605 pre-release

Jun 6, 2025

0.10.1a20250604 pre-release

Jun 5, 2025

0.10.0

Jun 5, 2025

0.9.5a20250604 pre-release

Jun 5, 2025

0.9.5a20250603 pre-release

Jun 4, 2025

0.9.5a20250602 pre-release

Jun 3, 2025

0.9.5a20250530 pre-release

May 31, 2025

0.9.5a20250528 pre-release

May 29, 2025

0.9.5a20250521 pre-release

May 22, 2025

0.9.5a20250520 pre-release

May 21, 2025

0.9.5a20250519 pre-release

May 20, 2025

0.9.5a20250514 pre-release

May 15, 2025

0.9.5a20250513 pre-release

May 14, 2025

0.9.5a20250512 pre-release

May 13, 2025

0.9.5a20250509 pre-release

May 10, 2025

0.9.5a20250507 pre-release

May 8, 2025

0.9.5a20250502 pre-release

May 3, 2025

0.9.5a20250428 pre-release

Apr 29, 2025

0.9.5a20250425 pre-release

Apr 28, 2025

0.9.5a20250424 pre-release

Apr 25, 2025

0.9.4

Apr 24, 2025

0.9.4a20250421 pre-release

Apr 23, 2025

0.9.4a20250414 pre-release

Apr 15, 2025

0.9.4a20250412 pre-release

Apr 12, 2025

0.9.4a20250410 pre-release

Apr 11, 2025

0.9.4a20250408 pre-release

Apr 9, 2025

0.9.3

Apr 2, 2025

0.9.2

Feb 18, 2025

0.9.1

Jan 23, 2025

0.9.0

Jan 15, 2025

0.8.1

Dec 11, 2024

0.8.0

Nov 12, 2024

0.7.1

Oct 17, 2024

0.7.0

Oct 9, 2024

0.6.0

Sep 23, 2024

0.5.0

Aug 8, 2024

0.4.0

Jun 21, 2024

0.3.3

May 7, 2024

0.3.2

Apr 29, 2024

0.3.1

Apr 25, 2024

0.3.0

Apr 25, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

compressed_tensors-0.13.1a20260123.tar.gz (216.0 kB view details)

Uploaded Jan 24, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

compressed_tensors-0.13.1a20260123-py3-none-any.whl (208.0 kB view details)

Uploaded Jan 24, 2026 Python 3

File details

Details for the file compressed_tensors-0.13.1a20260123.tar.gz.

File metadata

Download URL: compressed_tensors-0.13.1a20260123.tar.gz
Upload date: Jan 24, 2026
Size: 216.0 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.10.12

File hashes

Hashes for compressed_tensors-0.13.1a20260123.tar.gz
Algorithm	Hash digest
SHA256	`c20fb4a025cb926bdbf59b48c691d80552d43c0700190fa403fe867ba07afb23`
MD5	`704c23495f75887f36e57f64643d6460`
BLAKE2b-256	`36ff9cb092701971802beb9dcbba8e7e4e3a743d54076d7e6b5f1c0c2a4be8d7`

See more details on using hashes here.

File details

Details for the file compressed_tensors-0.13.1a20260123-py3-none-any.whl.

File metadata

Download URL: compressed_tensors-0.13.1a20260123-py3-none-any.whl
Upload date: Jan 24, 2026
Size: 208.0 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.10.12

File hashes

Hashes for compressed_tensors-0.13.1a20260123-py3-none-any.whl
Algorithm	Hash digest
SHA256	`b4104ac3d6552c0f05b1ed590a40dede667ae0ab232c90d5842ce7bf1e50373d`
MD5	`7cf18bc7353b3f8f260ac111ee15ba34`
BLAKE2b-256	`1b55721e9ceefc20ad51211153cd2dd06c2c3e7be323e5d76bf4f81500a2e7fd`

See more details on using hashes here.

compressed-tensors 0.13.1a20260123

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

compressed-tensors

Why `compressed-tensors`?

Installation

From PyPI

From Source

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

Saving/Loading Compressed Models (Bitmask Compression)

Saving a Compressed Model with PTQ

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

compressed-tensors 0.13.1a20260123

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

compressed-tensors

Why compressed-tensors?

Installation

From PyPI

From Source

Getting started

Saving/Loading Compressed Tensors (Bitmask Compression)

Saving/Loading Compressed Models (Bitmask Compression)

Saving a Compressed Model with PTQ

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

Why `compressed-tensors`?