tpu-inference

No project description provided

These details have not been verified by PyPI

Project description

vLLM TPU

🤝 Contribute to the Project
_{Looking to help? Click a badge below to find issues that need your attention.}

Latest News

Announcing Gemma 4 on vLLM Byte for byte, the most capable open models - available on TPUs on Day 0!

Previous News 🔥

Pytorch Conference Learn how Spotify uses vLLM with both GPUs and TPUs to drive down costs and improve user experience.
Ray Summit, November 3-5 in San Francisco!
JAX DevLab on November 18th in Sunnyvale!
[2025/10] vLLM TPU: A New Unified Backend Supporting PyTorch and JAX on TPU

About

vLLM TPU is now powered by tpu-inference, an expressive and powerful new hardware plugin unifying JAX and PyTorch under a single lowering path within the vLLM project. The new backend now provides a framework for developers to:

Push the limits of TPU hardware performance in open source.
Provide more flexibility to JAX and PyTorch users by running PyTorch model definitions performantly on TPU without any additional code changes, while also extending native support to JAX.
Retain vLLM standardization: keep the same user experience, telemetry, and interface.

Recommended models and features

Although vLLM TPU’s new unified backend makes out-of-the-box high performance serving possible with any model supported in vLLM, the reality is that we're still in the process of implementing a few core components.

For this reason, we’ve provided a Recommended Models and Features page detailing the models and features that are validated through unit, integration, and performance testing.

Get started

Get started with vLLM on TPUs by following the quickstart guide.

Visit our documentation to learn more.

Compatible TPU Generations

Recommended: v7x, v5e, v6e
Experimental: v3, v4, v5p

Recipes

TPU Support Matrix Dashboard

Below is the live status of our supported models, features, and kernels. Click on any category to expand the detailed support table. It is automatically updated from our detailed Support Matrices.

Last Updated: 2026-05-01 04:54 PM UTC

🚦 Status Legend

✅ Passing: Tested and works as expected. Ready for use.

❌ Failing: Known to be broken or not functional. Help is wanted to fix this!

🧪 Experimental: Works, but unoptimized or pending community validation.

📝 Planned: Not yet implemented, but on the official roadmap.

⛔️ Unplanned: There is no benefit to adding this.

❓ Untested: The functionality exists but has not been recently or thoroughly verified.

📐 View Matrix Aggregation Rules (v6e/v7x & C+P)

🛠️ Correctness + Performance (C + P)

❌ Failing: If either check fails.

✅ Passing: If BOTH checks pass successfully.

❓ Untested: If any check is untested (and neither fails).

🌐 Hardware Rollups (v6e + v7x)

❌ Failing: If the feature fails on either v6e or v7x.

✅ Passing: If the feature passes on BOTH v6e and v7x.

❓ Untested: If either generation is untested (and neither fails).

Release Support Matrices

Click to expand support matrices

Stable support status for official releases and production deployments.

✅ Tested Models

Model Type Unit Test Correctness Test Performance Test

Qwen/Qwen2.5-VL-7B-Instruct Multimodal ✅ ✅ ✅

google/gemma-3-27b-it Text ✅ ✅ ✅

meta-llama/Llama-3.1-8B-Instruct Text ✅ ✅ ✅

meta-llama/Llama-3.3-70B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3-30B-A3B Text ✅ ✅ ✅

Qwen/Qwen3-32B Text ✅ ✅ ✅

Qwen/Qwen3-4B Text ✅ ✅ ✅

Qwen/Qwen3-Coder-480B-A35B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3.5-397B-A17B Text ✅ ✅ ✅

openai/gpt-oss-120b Text ✅ ✅ ❓

deepseek-ai/DeepSeek-R1 Text ✅ ❓ ❓

deepseek-ai/DeepSeek-OCR Multimodal ❓ ❓ ❓

moonshotai/Kimi-K2.5 Multimodal ❓ ❓ ❓

Qwen/Qwen3-Omni-30B-A3B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3-VL-8B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3.5-9B Multimodal ❓ ❓ ❓

deepseek-ai/DeepSeek-Math-V2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.1 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2-Speciale Text ❓ ❓ ❓

MiniMaxAI/MiniMax-M2.5 Text ❓ ❓ ❓

moonshotai/Kimi-K2-Thinking Text ❓ ❓ ❓

openai/gpt-oss-20b Text ❓ ❓ ❓

zai-org/GLM-5 Text ❓ ❓ ❓

🚀 Advanced Capabilities

Core Features

Feature Flax Torchax Default

Chunked Prefill ✅ ✅ ✅

DCN-based P/D disaggregation ✅ ✅ ✅

LoRA_Torch ✅ ✅ ✅

Out-of-tree model support ✅ ✅ ✅

Prefix Caching ✅ ✅ ✅

Single Program Multi Data ✅ ✅ ✅

Speculative Decoding: Ngram ✅ ✅ ✅

Multimodal Inputs ✅ ❌ ✅

Speculative Decoding: Eagle3 ✅ ❌ ✅

async scheduler ❌ ✅ ✅

runai_model_streamer_loader ❓ ❌ ❓

hybrid kv cache ❓ ❓ ❓

KV cache host offloading ❓ ❓ ❓

multi-host ❓ ❓ ❓

sampling_params ❓ ❓ ❓

Single-Host-P-D-disaggregation ❓ ❓ ❓

structured_decoding ❓ ❓ ❓

Parallelism Techniques

Feature Flax Torchax

Single-host Multi-host Single-host Multi-host

PP ✅ ✅ ✅ ✅

DP ✅ ❓ ✅ ❓

EP ✅ ❓ ✅ ❓

TP ✅ ❓ ✅ ❓

CP ❓ ❓ ❓ ❓

SP (vote to prioritize) ❓ ❓ ❓ ❓

Quantization Methods

Checkpoint dtype Method Supported
Hardware Acceleration Flax Torchax

FP4 W4A16 mxfp4 v7 ❓ ❓

FP8 W8A16 compressed-tensor v7 ❓ ❓

FP8 W8A8 compressed-tensor v7 ❓ ❓

INT4 W4A16 awq v5, v6 ❓ ❓

INT8 W8A8 compressed-tensor v5, v6 ❓ ❓

Note:

This table only tests checkpoint loading compatibility.

🔬 Microbenchmark Kernel Support

Category Test W16A16 W8A8 W8A16 W4A4 W4A8 W4A16

Moe Fused MoE ❓ ❓ ❓ ❓ ❓ ❓

gmm ❓ ❓ ❓ ❓ ❓ ❓

Dense All‑gather matmul ❓ ❓ ❓ ❓ ❓ ❓

Attention Generic Ragged Paged
Attention V3* ❓ ❓ ❓ ❓ ❓ ❓

MLA ❓ ❓ ❓ ❓ ❓ ❓

Ragged Paged
Attention V3 Head_Dim
64* ❓ ❓ ❓ ❓ ❓ ❓

Note:

For attention kernels, W[x]A[y] denotes KV cache as W, A as compute, and x, y as bit precision.

Model	Type	Unit Test	Correctness Test	Performance Test
Qwen/Qwen2.5-VL-7B-Instruct	Multimodal	✅	✅	✅
google/gemma-3-27b-it	Text	✅	✅	✅
meta-llama/Llama-3.1-8B-Instruct	Text	✅	✅	✅
meta-llama/Llama-3.3-70B-Instruct	Text	✅	✅	✅
Qwen/Qwen3-30B-A3B	Text	✅	✅	✅
Qwen/Qwen3-32B	Text	✅	✅	✅
Qwen/Qwen3-4B	Text	✅	✅	✅
Qwen/Qwen3-Coder-480B-A35B-Instruct	Text	✅	✅	✅
Qwen/Qwen3.5-397B-A17B	Text	✅	✅	✅
openai/gpt-oss-120b	Text	✅	✅	❓
deepseek-ai/DeepSeek-R1	Text	✅	❓	❓
deepseek-ai/DeepSeek-OCR	Multimodal	❓	❓	❓
moonshotai/Kimi-K2.5	Multimodal	❓	❓	❓
Qwen/Qwen3-Omni-30B-A3B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3-VL-8B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3.5-9B	Multimodal	❓	❓	❓
deepseek-ai/DeepSeek-Math-V2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.1	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2-Speciale	Text	❓	❓	❓
MiniMaxAI/MiniMax-M2.5	Text	❓	❓	❓
moonshotai/Kimi-K2-Thinking	Text	❓	❓	❓
openai/gpt-oss-20b	Text	❓	❓	❓
zai-org/GLM-5	Text	❓	❓	❓

Feature	Flax	Torchax	Default
Chunked Prefill	✅	✅	✅
DCN-based P/D disaggregation	✅	✅	✅
LoRA_Torch	✅	✅	✅
Out-of-tree model support	✅	✅	✅
Prefix Caching	✅	✅	✅
Single Program Multi Data	✅	✅	✅
Speculative Decoding: Ngram	✅	✅	✅
Multimodal Inputs	✅	❌	✅
Speculative Decoding: Eagle3	✅	❌	✅
async scheduler	❌	✅	✅
runai_model_streamer_loader	❓	❌	❓
hybrid kv cache	❓	❓	❓
KV cache host offloading	❓	❓	❓
multi-host	❓	❓	❓
sampling_params	❓	❓	❓
Single-Host-P-D-disaggregation	❓	❓	❓
structured_decoding	❓	❓	❓

Feature	Flax	Torchax
PP	✅	✅	✅	✅
DP	✅	❓	✅	❓
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓

Checkpoint dtype	Method	Supported Hardware Acceleration	Flax	Torchax
FP4 W4A16	mxfp4	v7	❓	❓
FP8 W8A16	compressed-tensor	v7	❓	❓
FP8 W8A8	compressed-tensor	v7	❓	❓
INT4 W4A16	awq	v5, v6	❓	❓
INT8 W8A8	compressed-tensor	v5, v6	❓	❓

Category	Test	W16A16	W8A8	W8A16	W4A4	W4A8	W4A16
Moe	Fused MoE	❓	❓	❓	❓	❓	❓
gmm	❓	❓	❓	❓	❓	❓
Dense	All‑gather matmul	❓	❓	❓	❓	❓	❓
Attention	Generic Ragged Paged Attention V3*	❓	❓	❓	❓	❓	❓
MLA	❓	❓	❓	❓	❓	❓
Ragged Paged Attention V3 Head_Dim 64*	❓	❓	❓	❓	❓	❓

Nightly Support Matrices

Click to expand support matrices

Support status for the latest nightly/main branch developments.

✅ Tested Models

Model Type Unit Test Correctness Test Performance Test

Qwen/Qwen2.5-VL-7B-Instruct Multimodal ✅ ✅ ✅

google/gemma-3-27b-it Text ✅ ✅ ✅

meta-llama/Llama-3.1-8B-Instruct Text ✅ ✅ ✅

meta-llama/Llama-3.3-70B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3-30B-A3B Text ✅ ✅ ✅

Qwen/Qwen3-32B Text ✅ ✅ ✅

Qwen/Qwen3-4B Text ✅ ✅ ✅

Qwen/Qwen3-Coder-480B-A35B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3.5-397B-A17B Text ✅ ✅ ✅

openai/gpt-oss-120b Text ✅ ✅ ❓

deepseek-ai/DeepSeek-R1 Text ✅ ❓ ❓

deepseek-ai/DeepSeek-OCR Multimodal ❓ ❓ ❓

moonshotai/Kimi-K2.5 Multimodal ❓ ❓ ❓

Qwen/Qwen3-Omni-30B-A3B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3-VL-8B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3.5-9B Multimodal ❓ ❓ ❓

deepseek-ai/DeepSeek-Math-V2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.1 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2-Speciale Text ❓ ❓ ❓

MiniMaxAI/MiniMax-M2.5 Text ❓ ❓ ❓

moonshotai/Kimi-K2-Thinking Text ❓ ❓ ❓

openai/gpt-oss-20b Text ❓ ❓ ❓

zai-org/GLM-5 Text ❓ ❓ ❓

🚀 Advanced Capabilities

Core Features

Feature Flax Torchax Default

Chunked Prefill ✅ ✅ ✅

DCN-based P/D disaggregation ✅ ✅ ✅

LoRA_Torch ✅ ✅ ✅

Prefix Caching ✅ ✅ ✅

Single Program Multi Data ✅ ✅ ✅

Speculative Decoding: Ngram ✅ ✅ ✅

Speculative Decoding: Eagle3 ✅ ❌ ✅

async scheduler ❌ ✅ ✅

Out-of-tree model support ❌ ✅ ✅

Multimodal Inputs ❌ ❌ ❌

hybrid kv cache ❓ ❓ ❓

KV cache host offloading ❓ ❓ ❓

multi-host ❓ ❓ ❓

runai_model_streamer_loader ❓ ❓ ❓

sampling_params ❓ ❓ ❓

structured_decoding ❓ ❓ ❓

Parallelism Techniques

Feature Flax Torchax

Single-host Multi-host Single-host Multi-host

PP ✅ ✅ ✅ ✅

EP ✅ ❓ ✅ ❓

TP ✅ ❓ ✅ ❓

DP ❌ ❓ ❌ ❓

CP ❓ ❓ ❓ ❓

SP (vote to prioritize) ❓ ❓ ❓ ❓

Quantization Methods

Checkpoint dtype Method Supported
Hardware Acceleration Flax Torchax

FP4 W4A16 mxfp4 v7 ❓ ❓

FP8 W8A16 compressed-tensor v7 ❓ ❓

FP8 W8A8 compressed-tensor v7 ❓ ❓

INT4 W4A16 awq v5, v6 ❓ ❓

INT8 W8A8 compressed-tensor v5, v6 ❓ ❓

Note:

This table only tests checkpoint loading compatibility.

🔬 Microbenchmark Kernel Support

Category Test W16A16 W8A8 W8A16 W4A4 W4A8 W4A16

Moe Fused MoE ❓ ❓ ❓ ❓ ❓ ❓

gmm ❓ ❓ ❓ ❓ ❓ ❓

Dense All‑gather matmul ❓ ❓ ❓ ❓ ❓ ❓

Attention Generic Ragged Paged
Attention V3* ❓ ❓ ❓ ❓ ❓ ❓

MLA ❓ ❓ ❓ ❓ ❓ ❓

Ragged Paged
Attention V3 Head_Dim
64* ❓ ❓ ❓ ❓ ❓ ❓

Note:

For attention kernels, W[x]A[y] denotes KV cache as W, A as compute, and x, y as bit precision.

Model	Type	Unit Test	Correctness Test	Performance Test
Qwen/Qwen2.5-VL-7B-Instruct	Multimodal	✅	✅	✅
google/gemma-3-27b-it	Text	✅	✅	✅
meta-llama/Llama-3.1-8B-Instruct	Text	✅	✅	✅
meta-llama/Llama-3.3-70B-Instruct	Text	✅	✅	✅
Qwen/Qwen3-30B-A3B	Text	✅	✅	✅
Qwen/Qwen3-32B	Text	✅	✅	✅
Qwen/Qwen3-4B	Text	✅	✅	✅
Qwen/Qwen3-Coder-480B-A35B-Instruct	Text	✅	✅	✅
Qwen/Qwen3.5-397B-A17B	Text	✅	✅	✅
openai/gpt-oss-120b	Text	✅	✅	❓
deepseek-ai/DeepSeek-R1	Text	✅	❓	❓
deepseek-ai/DeepSeek-OCR	Multimodal	❓	❓	❓
moonshotai/Kimi-K2.5	Multimodal	❓	❓	❓
Qwen/Qwen3-Omni-30B-A3B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3-VL-8B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3.5-9B	Multimodal	❓	❓	❓
deepseek-ai/DeepSeek-Math-V2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.1	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2-Speciale	Text	❓	❓	❓
MiniMaxAI/MiniMax-M2.5	Text	❓	❓	❓
moonshotai/Kimi-K2-Thinking	Text	❓	❓	❓
openai/gpt-oss-20b	Text	❓	❓	❓
zai-org/GLM-5	Text	❓	❓	❓

Feature	Flax	Torchax	Default
Chunked Prefill	✅	✅	✅
DCN-based P/D disaggregation	✅	✅	✅
LoRA_Torch	✅	✅	✅
Prefix Caching	✅	✅	✅
Single Program Multi Data	✅	✅	✅
Speculative Decoding: Ngram	✅	✅	✅
Speculative Decoding: Eagle3	✅	❌	✅
async scheduler	❌	✅	✅
Out-of-tree model support	❌	✅	✅
Multimodal Inputs	❌	❌	❌
hybrid kv cache	❓	❓	❓
KV cache host offloading	❓	❓	❓
multi-host	❓	❓	❓
runai_model_streamer_loader	❓	❓	❓
sampling_params	❓	❓	❓
structured_decoding	❓	❓	❓

Feature	Flax	Torchax
PP	✅	✅	✅	✅
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
DP	❌	❓	❌	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓

Checkpoint dtype	Method	Supported Hardware Acceleration	Flax	Torchax
FP4 W4A16	mxfp4	v7	❓	❓
FP8 W8A16	compressed-tensor	v7	❓	❓
FP8 W8A8	compressed-tensor	v7	❓	❓
INT4 W4A16	awq	v5, v6	❓	❓
INT8 W8A8	compressed-tensor	v5, v6	❓	❓

Category	Test	W16A16	W8A8	W8A16	W4A4	W4A8	W4A16
Moe	Fused MoE	❓	❓	❓	❓	❓	❓
gmm	❓	❓	❓	❓	❓	❓
Dense	All‑gather matmul	❓	❓	❓	❓	❓	❓
Attention	Generic Ragged Paged Attention V3*	❓	❓	❓	❓	❓	❓
MLA	❓	❓	❓	❓	❓	❓
Ragged Paged Attention V3 Head_Dim 64*	❓	❓	❓	❓	❓	❓

🤝 Contribute

We're thrilled you're interested in contributing to the vLLM TPU project! Your help is essential for making our tools better for everyone. There are many ways to get involved, even if you're not ready to write code.

Ways to Contribute:

🐞 Submit Bugs & Suggest Features: See an issue or have an idea? Open a new issue to let us know.
👀 Provide Feedback on Pull Requests: Lend your expertise by reviewing open pull requests and helping us improve the quality of our codebase.
📚 Improve Our Documentation: Help us make our guides clearer. Fix a typo, clarify a confusing section, or write a new recipe.

If you're ready to contribute code, our Contributing Guide is the best place to start. It covers everything you need to know, including:

Tips for finding an issue to work on (we recommend starting with our good-first issues!.

🌟 Contributors Wall

A huge thank you to everyone who has helped build and improve vllm-project/tpu-inference!

🌟 Contribution Type Legend & Ranking

Emoji Contribution Meaning

💻 Code Submitted merged pull requests or code changes.

🐛 Issues Opened valid issues or bug reports.

👀 Reviews Reviewed pull requests and provided feedback.

Emoji	Contribution	Meaning
💻	Code	Submitted merged pull requests or code changes.
🐛	Issues	Opened valid issues or bug reports.
👀	Reviews	Reviewed pull requests and provided feedback.

🏆 Ranking: Contributors are sorted from highest to lowest based on their total effort score (Total Commits + Unique Issues Opened + PRs Reviewed). If there is a tie, contributors are displayed alphabetically.

_{xiangxu-google} 💻	_jrplatin 🐛 👀 💻	_{buildkite-bot} 💻	_kyuyeunk 🐛 👀 💻	_py4 💻	_fenghuizhang 💻	_lk-chen 🐛 👀 💻
_{wenxindongwork} 👀 💻	_vanbasten23 👀 💻	_{sixiang-google} 💻	_lsy323 💻	_Lumosis 💻	_QiliangCui 👀 💻	_Chenyaaang 👀 💻
_bzgoogle 👀 💻	_gpolovets1 👀 💻	_{mrjunwan-lang} 👀 💻	_{yarongmu-google} 💻	_{wwl2755-google} 💻	_yaochengji 💻	_patemotter 👀 💻

...and more! Click to view all contributors.

_boe20211 💻	_jcyang43 👀 💻	_kwang3939 👀 💻	_bythew3i 💻	_pv97 👀 💻	_karan 🐛 💻	_{dennisYehCienet} 👀 💻
_syhuang22 👀 💻	_helloworld1 🐛 👀 💻	_ica-chao 💻	_richardsliu 👀 💻	_catswe 👀 💻	_RobMulla 🐛 💻	_xingliu14 🐛 💻
_{juncgu-google} 👀	_saltysoup 🐛	_weiyu0824 👀 💻	_andrewkvuong 💻	_{rupengliu-meta} 🐛 💻	_bvrockwell 🐛 💻	_sierraisland 💻
_wang2yn84 💻	_wdhongtw 💻	_JiriesKaileh 💻	_ylangtsou 💻	_amacaskill 💻	_BirdsOfAFthr 💻	_{patrickji2014} 👀 💻
_qihqi 🐛 💻	_yuanfz98 🐛	_cychiuak 💻	_{hosseinsarshar} 🐛 💻	_samos123 🐛	_AlienKevin 🐛	_dgouju 🐛
_eitanporat 🐛	_ernie-chang 💻	_lepan-google 🐛 💻	_{muskansh-google} 🐛	_saikat-royc 👀	_{abhinavclemson} 💻	_aman2930 💻
_BabyChouSr 🐛	_{CienetStingLin} 💻	_coolkp 💻	_{functionstackx} 🐛	_helloleah 💻	_{mailvijayasingh} 💻	_{QiliangCui2023} 👀
_shireen-bean 🐛	_{utkarshsharma1} 💻	_A9isha 💻	_AahilA 💻	_amishacorns 💻	_carlesoctav 🐛	_dannikay 💻
_depksingh 🐛	_{Dineshkumar-Anandan-ZS0367} 🐛	_dtrifiro 🐛	_erfanzar 🐛	_inho9606 💻	_jk1333 🐛	_jyj0w0 👀
_kuafou 💻	_kyle-google 💻	_Mhdaw 🐛	_{mokeddembillel} 🐛	_oindrila-b 🐛	_oliverdutton 🐛	_{pathfinder-pf} 🐛
_{piotrfrankowski} 🐛	_{reeaz27-droid} 🐛	_rupeng-liu 💻	_{salmanmohammadi} 🐛	_vlad-karp 💻	_XMaster96 🐛	_yixinshi 👀
_{yuyanpeng-google} 💻	_zixi-qi 💻	_zongweiz 🐛	_zzzwen 💻

💬 Contact us

For technical questions and feature requests, open a GitHub Issue
For feature requests, please open one on Github here
For discussing with fellow users, use the TPU support topic in the vLLM Forum
For coordinating contributions and development, use the Developer Slack
For collaborations and partnerships, contact us at vllm-tpu@google.com

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.24.0rc1 pre-release

Jul 1, 2026

0.23.0

Jun 24, 2026

0.23.0rc1 pre-release

Jun 22, 2026

0.23.0.dev20260703 pre-release

Jul 3, 2026

0.23.0.dev20260702 pre-release

Jul 2, 2026

0.23.0.dev20260701 pre-release

Jul 1, 2026

0.23.0.dev20260630 pre-release

Jun 30, 2026

0.23.0.dev20260629 pre-release

Jun 29, 2026

0.23.0.dev20260628 pre-release

Jun 28, 2026

0.23.0.dev20260627 pre-release

Jun 27, 2026

0.23.0.dev20260626 pre-release

Jun 26, 2026

0.23.0.dev20260625 pre-release

Jun 25, 2026

0.23.0.dev20260624 pre-release

Jun 24, 2026

0.22.1

Jun 16, 2026

0.22.1.dev20260623 pre-release

Jun 23, 2026

0.22.1.dev20260622 pre-release

Jun 22, 2026

0.22.1.dev20260621 pre-release

Jun 21, 2026

0.22.1.dev20260620 pre-release

Jun 20, 2026

0.22.1.dev20260619 pre-release

Jun 19, 2026

0.22.1.dev20260618 pre-release

Jun 18, 2026

0.22.1.dev20260617 pre-release

Jun 17, 2026

0.22.1.dev20260616 pre-release

Jun 16, 2026

0.22.0 yanked

Jun 8, 2026

0.22.0rc1 pre-release

Jun 8, 2026

0.21.0

Jun 5, 2026

0.21.0rc1 pre-release

May 28, 2026

0.21.0.dev20260615 pre-release

Jun 15, 2026

0.21.0.dev20260614 pre-release

Jun 14, 2026

0.21.0.dev20260613 pre-release

Jun 13, 2026

0.21.0.dev20260612 pre-release

Jun 12, 2026

0.21.0.dev20260611 pre-release

Jun 11, 2026

0.21.0.dev20260610 pre-release

Jun 10, 2026

0.21.0.dev20260609 pre-release

Jun 9, 2026

0.21.0.dev20260608 pre-release

Jun 8, 2026

0.21.0.dev20260607 pre-release

Jun 7, 2026

0.21.0.dev20260606 pre-release

Jun 6, 2026

0.21.0.dev20260605 pre-release

Jun 5, 2026

0.20.0

May 21, 2026

0.20.0.dev20260604 pre-release

Jun 4, 2026

0.20.0.dev20260603 pre-release

Jun 3, 2026

0.20.0.dev20260602 pre-release

Jun 2, 2026

0.20.0.dev20260601 pre-release

Jun 1, 2026

0.20.0.dev20260531 pre-release

May 31, 2026

0.20.0.dev20260530 pre-release

May 30, 2026

0.20.0.dev20260529 pre-release

May 29, 2026

0.20.0.dev20260528 pre-release

May 28, 2026

0.20.0.dev20260527 pre-release

May 27, 2026

0.20.0.dev20260525 pre-release

May 25, 2026

0.20.0.dev20260524 pre-release

May 24, 2026

0.20.0.dev20260523 pre-release

May 23, 2026

0.20.0.dev20260522 pre-release

May 22, 2026

0.20.0.dev20260521 pre-release

May 21, 2026

0.19.0

May 5, 2026

0.19.0.dev20260520 pre-release

May 20, 2026

0.19.0.dev20260519 pre-release

May 19, 2026

0.19.0.dev20260518 pre-release

May 18, 2026

0.19.0.dev20260517 pre-release

May 17, 2026

0.19.0.dev20260516 pre-release

May 16, 2026

0.19.0.dev20260515 pre-release

May 15, 2026

0.19.0.dev20260514 pre-release

May 14, 2026

0.19.0.dev20260513 pre-release

May 13, 2026

0.19.0.dev20260512 pre-release

May 12, 2026

0.19.0.dev20260511 pre-release

May 11, 2026

0.19.0.dev20260510 pre-release

May 10, 2026

0.19.0.dev20260509 pre-release

May 9, 2026

0.19.0.dev20260508 pre-release

May 8, 2026

0.19.0.dev20260507 pre-release

May 7, 2026

This version

0.19.0.dev20260506 pre-release

May 6, 2026

0.18.0

Apr 20, 2026

0.18.0rc1 pre-release

Apr 13, 2026

0.18.0.dev20260505 pre-release

May 5, 2026

0.18.0.dev20260504 pre-release

May 4, 2026

0.18.0.dev20260503 pre-release

May 3, 2026

0.18.0.dev20260502 pre-release

May 2, 2026

0.18.0.dev20260501 pre-release

May 1, 2026

0.18.0.dev20260430 pre-release

Apr 30, 2026

0.18.0.dev20260429 pre-release

Apr 29, 2026

0.18.0.dev20260428 pre-release

Apr 28, 2026

0.18.0.dev20260427 pre-release

Apr 27, 2026

0.18.0.dev20260426 pre-release

Apr 26, 2026

0.18.0.dev20260425 pre-release

Apr 25, 2026

0.18.0.dev20260424 pre-release

Apr 24, 2026

0.18.0.dev20260423 pre-release

Apr 23, 2026

0.18.0.dev20260422 pre-release

Apr 22, 2026

0.18.0.dev20260421 pre-release

Apr 21, 2026

0.13.3

Dec 30, 2025

0.13.2.post6

Dec 30, 2025

0.13.2

Dec 30, 2025

0.13.2rc4.post6 pre-release

Dec 30, 2025

0.13.2rc4 pre-release

Dec 30, 2025

0.13.2rc3 pre-release

Dec 24, 2025

0.13.2rc2.post7 pre-release

Dec 24, 2025

0.13.2rc2 pre-release

Dec 24, 2025

0.13.2rc1.post7 pre-release

Dec 23, 2025

0.13.2rc1 pre-release

Dec 23, 2025

0.13.2a1 pre-release

Mar 5, 2026

0.13.2.dev20260420 pre-release

Apr 20, 2026

0.13.2.dev20260419 pre-release

Apr 19, 2026

0.13.2.dev20260418 pre-release

Apr 18, 2026

0.13.2.dev20260417 pre-release

Apr 17, 2026

0.13.2.dev20260416 pre-release

Apr 16, 2026

0.13.2.dev20260415 pre-release

Apr 15, 2026

0.13.2.dev20260414 pre-release

Apr 14, 2026

0.13.2.dev20260413 pre-release

Apr 13, 2026

0.13.2.dev20260412 pre-release

Apr 12, 2026

0.13.2.dev20260411 pre-release

Apr 11, 2026

0.13.2.dev20260410 pre-release

Apr 10, 2026

0.13.2.dev20260409 pre-release

Apr 9, 2026

0.13.2.dev20260408 pre-release

Apr 8, 2026

0.13.2.dev20260407 pre-release

Apr 7, 2026

0.13.2.dev20260406 pre-release

Apr 6, 2026

0.13.2.dev20260405 pre-release

Apr 5, 2026

0.13.2.dev20260404 pre-release

Apr 4, 2026

0.13.2.dev20260403 pre-release

Apr 3, 2026

0.13.2.dev20260402 pre-release

Apr 2, 2026

0.13.2.dev20260401 pre-release

Apr 1, 2026

0.13.2.dev20260331 pre-release

Mar 31, 2026

0.13.2.dev20260330 pre-release

Mar 30, 2026

0.13.2.dev20260329 pre-release

Mar 29, 2026

0.13.2.dev20260328 pre-release

Mar 28, 2026

0.13.2.dev20260327 pre-release

Mar 27, 2026

0.13.2.dev20260326 pre-release

Mar 26, 2026

0.13.2.dev20260325 pre-release

Mar 25, 2026

0.13.2.dev20260324 pre-release

Mar 24, 2026

0.13.2.dev20260323 pre-release

Mar 23, 2026

0.13.2.dev20260322 pre-release

Mar 22, 2026

0.13.2.dev20260321 pre-release

Mar 21, 2026

0.13.2.dev20260320 pre-release

Mar 20, 2026

0.13.2.dev20260319 pre-release

Mar 19, 2026

0.13.2.dev20260318 pre-release

Mar 18, 2026

0.13.2.dev20260317 pre-release

Mar 17, 2026

0.13.2.dev20260316 pre-release

Mar 16, 2026

0.13.2.dev20260315 pre-release

Mar 15, 2026

0.13.2.dev20260314 pre-release

Mar 14, 2026

0.13.2.dev20260313 pre-release

Mar 13, 2026

0.13.2.dev20260312 pre-release

Mar 12, 2026

0.13.2.dev20260311 pre-release

Mar 11, 2026

0.13.2.dev20260310 pre-release

Mar 10, 2026

0.13.2.dev20260309 pre-release

Mar 9, 2026

0.13.2.dev20260308 pre-release

Mar 8, 2026

0.13.2.dev20260307 pre-release

Mar 7, 2026

0.13.2.dev20260306 pre-release

Mar 6, 2026

0.13.2.dev20260305 pre-release

Mar 5, 2026

0.13.2.dev20260304 pre-release

Mar 4, 2026

0.13.2.dev20260303 pre-release

Mar 3, 2026

0.13.2.dev20260302 pre-release

Mar 2, 2026

0.13.2.dev20260301 pre-release

Mar 1, 2026

0.13.2.dev20260228 pre-release

Feb 28, 2026

0.13.2.dev20260227 pre-release

Feb 27, 2026

0.13.2.dev20260226 pre-release

Feb 26, 2026

0.13.2.dev20260225 pre-release

Feb 25, 2026

0.13.2.dev20260224 pre-release

Feb 24, 2026

0.13.2.dev20260223 pre-release

Feb 23, 2026

0.13.2.dev20260222 pre-release

Feb 22, 2026

0.13.2.dev20260221 pre-release

Feb 21, 2026

0.13.2.dev20260220 pre-release

Feb 20, 2026

0.13.2.dev20260219 pre-release

Feb 19, 2026

0.13.2.dev20260218 pre-release

Feb 18, 2026

0.13.2.dev20260217 pre-release

Feb 17, 2026

0.13.2.dev20260216 pre-release

Feb 16, 2026

0.13.2.dev20260215 pre-release

Feb 15, 2026

0.13.2.dev20260214 pre-release

Feb 14, 2026

0.13.2.dev20260213 pre-release

Feb 13, 2026

0.13.2.dev20260212 pre-release

Feb 12, 2026

0.13.2.dev20260128 pre-release

Jan 28, 2026

0.13.2.dev20260127 pre-release

Jan 27, 2026

0.13.2.dev20260126 pre-release

Jan 26, 2026

0.13.2.dev20260125 pre-release

Jan 25, 2026

0.13.2.dev20260124 pre-release

Jan 24, 2026

0.13.2.dev20260123 pre-release

Jan 23, 2026

0.13.2.dev20260122 pre-release

Jan 22, 2026

0.13.2.dev20260121 pre-release

Jan 21, 2026

0.13.2.dev20260120 pre-release

Jan 20, 2026

0.13.2.dev20260119 pre-release

Jan 19, 2026

0.13.2.dev20260118 pre-release

Jan 18, 2026

0.13.2.dev20260117 pre-release

Jan 17, 2026

0.13.2.dev20260116 pre-release

Jan 16, 2026

0.13.2.dev20260115 pre-release

Jan 15, 2026

0.13.2.dev20260114 pre-release

Jan 14, 2026

0.13.2.dev20260113 pre-release

Jan 13, 2026

0.13.2.dev20260112 pre-release

Jan 12, 2026

0.13.2.dev20260111 pre-release

Jan 11, 2026

0.13.2.dev20260110 pre-release

Jan 10, 2026

0.13.2.dev20260109 pre-release

Jan 9, 2026

0.13.2.dev20260108 pre-release

Jan 8, 2026

0.13.2.dev20260107 pre-release

Jan 7, 2026

0.13.2.dev20260106 pre-release

Jan 6, 2026

0.13.2.dev20260105 pre-release

Jan 5, 2026

0.13.2.dev20260104 pre-release

Jan 4, 2026

0.13.2.dev20260103 pre-release

Jan 3, 2026

0.13.2.dev20260102 pre-release

Jan 2, 2026

0.13.2.dev20260101 pre-release

Jan 1, 2026

0.13.2.dev20251231 pre-release

Dec 31, 2025

0.13.2.dev20251230 pre-release

Dec 30, 2025

0.13.0rc2.post7 pre-release

Dec 23, 2025

0.13.0rc2 pre-release

Dec 23, 2025

0.13.0rc1 pre-release

Dec 17, 2025

0.12.0

Dec 6, 2025

0.12.0rc2 pre-release

Dec 3, 2025

0.12.0rc1 pre-release

Dec 3, 2025

0.12.0.dev20251229 pre-release

Dec 29, 2025

0.12.0.dev20251228 pre-release

Dec 28, 2025

0.12.0.dev20251227 pre-release

Dec 27, 2025

0.12.0.dev20251226 pre-release

Dec 26, 2025

0.12.0.dev20251225 pre-release

Dec 25, 2025

0.12.0.dev20251224 pre-release

Dec 24, 2025

0.12.0.dev20251223 pre-release

Dec 23, 2025

0.12.0.dev20251222 pre-release

Dec 22, 2025

0.12.0.dev20251221 pre-release

Dec 21, 2025

0.12.0.dev20251220 pre-release

Dec 20, 2025

0.12.0.dev20251219 pre-release

Dec 19, 2025

0.12.0.dev20251218 pre-release

Dec 18, 2025

0.12.0.dev20251217 pre-release

Dec 17, 2025

0.12.0.dev20251216 pre-release

Dec 16, 2025

0.12.0.dev20251215 pre-release

Dec 15, 2025

0.12.0.dev20251214 pre-release

Dec 14, 2025

0.12.0.dev20251213 pre-release

Dec 13, 2025

0.12.0.dev20251212 pre-release

Dec 12, 2025

0.12.0.dev20251211 pre-release

Dec 11, 2025

0.12.0.dev20251210 pre-release

Dec 10, 2025

0.12.0.dev20251209 pre-release

Dec 9, 2025

0.12.0.dev20251208 pre-release

Dec 8, 2025

0.12.0.dev20251207 pre-release

Dec 7, 2025

0.12.0.dev20251206 pre-release

Dec 6, 2025

0.11.2rc3 pre-release

Nov 27, 2025

0.11.2rc2 pre-release

Nov 13, 2025

0.11.2rc1 pre-release

Nov 12, 2025

0.11.1

Oct 16, 2025

0.11.1rc3 pre-release

Oct 15, 2025

0.11.1rc2 pre-release

Oct 15, 2025

0.11.1rc1 pre-release

Oct 15, 2025

0.11.1.dev202512030818 pre-release

Dec 3, 2025

0.11.1.dev202512020844 pre-release

Dec 2, 2025

0.11.1.dev202512010850 pre-release

Dec 1, 2025

0.11.1.dev202511300812 pre-release

Nov 30, 2025

0.11.1.dev202511290830 pre-release

Nov 29, 2025

0.11.1.dev202511280814 pre-release

Nov 28, 2025

0.11.1.dev202511270815 pre-release

Nov 27, 2025

0.11.1.dev202511260843 pre-release

Nov 26, 2025

0.11.1.dev202511250817 pre-release

Nov 25, 2025

0.11.1.dev202511240815 pre-release

Nov 24, 2025

0.11.1.dev202511230812 pre-release

Nov 23, 2025

0.11.1.dev202511220812 pre-release

Nov 22, 2025

0.11.1.dev202511210828 pre-release

Nov 21, 2025

0.11.1.dev202511200814 pre-release

Nov 20, 2025

0.11.1.dev202511190816 pre-release

Nov 19, 2025

0.11.1.dev202511180814 pre-release

Nov 18, 2025

0.11.1.dev202511170815 pre-release

Nov 17, 2025

0.11.1.dev202511160811 pre-release

Nov 16, 2025

0.11.1.dev202511150811 pre-release

Nov 15, 2025

0.11.1.dev202511140813 pre-release

Nov 14, 2025

0.11.1.dev202511130813 pre-release

Nov 13, 2025

0.11.1.dev202511120814 pre-release

Nov 12, 2025

0.11.1.dev20251205 pre-release

Dec 5, 2025

0.11.1.dev20251204 pre-release

Dec 4, 2025

0.0.2rc1.post7 pre-release

Dec 23, 2025

0.0.1rc1 pre-release

Dec 4, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tpu_inference-0.19.0.dev20260506.tar.gz (902.7 kB view details)

Uploaded May 6, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

tpu_inference-0.19.0.dev20260506-py3-none-any.whl (1.2 MB view details)

Uploaded May 6, 2026 Python 3

File details

Details for the file tpu_inference-0.19.0.dev20260506.tar.gz.

File metadata

Download URL: tpu_inference-0.19.0.dev20260506.tar.gz
Upload date: May 6, 2026
Size: 902.7 kB
Tags: Source
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for tpu_inference-0.19.0.dev20260506.tar.gz
Algorithm	Hash digest
SHA256	`db8d98f5fc934cf49e641fb12f42f768deff269b8f75cd38526f719191de733c`
MD5	`77a1dfc398fe68670b9f751441ae1a02`
BLAKE2b-256	`293319f509aeaeb6324309f70bd1b4c1b86d7e7c558caf89129a71ac03176734`

See more details on using hashes here.

Provenance

The following attestation bundles were made for tpu_inference-0.19.0.dev20260506.tar.gz:

Publisher: release.yml on vllm-project/tpu-inference

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: tpu_inference-0.19.0.dev20260506.tar.gz
- Subject digest: db8d98f5fc934cf49e641fb12f42f768deff269b8f75cd38526f719191de733c
- Sigstore transparency entry: 1449191507
- Sigstore integration time: May 6, 2026
Source repository:
- Permalink: vllm-project/tpu-inference@c385e6fd5d62b61d082a0d0e9c2d2a258c4a1654
- Branch / Tag: refs/heads/main
- Owner: https://github.com/vllm-project
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: release.yml@c385e6fd5d62b61d082a0d0e9c2d2a258c4a1654
- Trigger Event: schedule

File details

Details for the file tpu_inference-0.19.0.dev20260506-py3-none-any.whl.

File metadata

Download URL: tpu_inference-0.19.0.dev20260506-py3-none-any.whl
Upload date: May 6, 2026
Size: 1.2 MB
Tags: Python 3
Uploaded using Trusted Publishing? Yes
Uploaded via: twine/6.1.0 CPython/3.13.12

File hashes

Hashes for tpu_inference-0.19.0.dev20260506-py3-none-any.whl
Algorithm	Hash digest
SHA256	`dc5de0a984f1c17a9f6e9816c45026cde183a4f80d07bd8aced35622271fffa5`
MD5	`2c241812027648ea9fb9ce04f67954be`
BLAKE2b-256	`4363bc9a73344fb1bffe811ca00619dd756372499964823a81ad69f211c09ad0`

See more details on using hashes here.

Provenance

The following attestation bundles were made for tpu_inference-0.19.0.dev20260506-py3-none-any.whl:

Publisher: release.yml on vllm-project/tpu-inference

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Statement:
- Statement type: https://in-toto.io/Statement/v1
- Predicate type: https://docs.pypi.org/attestations/publish/v1
- Subject name: tpu_inference-0.19.0.dev20260506-py3-none-any.whl
- Subject digest: dc5de0a984f1c17a9f6e9816c45026cde183a4f80d07bd8aced35622271fffa5
- Sigstore transparency entry: 1449191530
- Sigstore integration time: May 6, 2026
Source repository:
- Permalink: vllm-project/tpu-inference@c385e6fd5d62b61d082a0d0e9c2d2a258c4a1654
- Branch / Tag: refs/heads/main
- Owner: https://github.com/vllm-project
- Access: public
Publication detail:
- Token Issuer: https://token.actions.githubusercontent.com
- Runner Environment: github-hosted
- Publication workflow: release.yml@c385e6fd5d62b61d082a0d0e9c2d2a258c4a1654
- Trigger Event: schedule

tpu-inference 0.19.0.dev20260506

Navigation

Verified details

Maintainers

Unverified details

Meta

Classifiers

Project description

Latest News

About

Recommended models and features

Get started

Recipes

TPU Support Matrix Dashboard

Release Support Matrices

Nightly Support Matrices

🤝 Contribute

🌟 Contributors Wall

💬 Contact us

Project details

Verified details

Maintainers

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

Provenance

File details

File metadata

File hashes

Provenance

Feature	Flax	Torchax
Single-host	Multi-host	Single-host	Multi-host
PP	✅	✅	✅	✅
DP	✅	❓	✅	❓
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓