tpu-inference

No project description provided

These details have not been verified by PyPI

Project description

vLLM TPU

🤝 Contribute to the Project
_{Looking to help? Click a badge below to find issues that need your attention.}

Latest News

Announcing Gemma 4 on vLLM Byte for byte, the most capable open models - available on TPUs on Day 0!

Previous News 🔥

Pytorch Conference Learn how Spotify uses vLLM with both GPUs and TPUs to drive down costs and improve user experience.
Ray Summit, November 3-5 in San Francisco!
JAX DevLab on November 18th in Sunnyvale!
[2025/10] vLLM TPU: A New Unified Backend Supporting PyTorch and JAX on TPU

About

vLLM TPU is now powered by tpu-inference, an expressive and powerful new hardware plugin unifying JAX and PyTorch under a single lowering path within the vLLM project. The new backend now provides a framework for developers to:

Push the limits of TPU hardware performance in open source.
Provide more flexibility to JAX and PyTorch users by running PyTorch model definitions performantly on TPU without any additional code changes, while also extending native support to JAX.
Retain vLLM standardization: keep the same user experience, telemetry, and interface.

Recommended models and features

Although vLLM TPU’s new unified backend makes out-of-the-box high performance serving possible with any model supported in vLLM, the reality is that we're still in the process of implementing a few core components.

For this reason, we’ve provided a Recommended Models and Features page detailing the models and features that are validated through unit, integration, and performance testing.

Get started

Get started with vLLM on TPUs by following the quickstart guide.

Visit our documentation to learn more.

Compatible TPU Generations

Recommended: v7x, v5e, v6e
Experimental: v3, v4, v5p

Recipes

TPU Support Matrix Dashboard

Below is the live status of our supported models, features, and kernels. Click on any category to expand the detailed support table. It is automatically updated from our detailed Support Matrices.

Last Updated: 2026-04-16 10:24 PM UTC

🚦 Status Legend

✅ Passing: Tested and works as expected. Ready for use.

❌ Failing: Known to be broken or not functional. Help is wanted to fix this!

🧪 Experimental: Works, but unoptimized or pending community validation.

📝 Planned: Not yet implemented, but on the official roadmap.

⛔️ Unplanned: There is no benefit to adding this.

❓ Untested: The functionality exists but has not been recently or thoroughly verified.

📐 View Matrix Aggregation Rules (v6e/v7x & C+P)

🛠️ Correctness + Performance (C + P)

❌ Failing: If either check fails.

✅ Passing: If BOTH checks pass successfully.

❓ Untested: If any check is untested (and neither fails).

🌐 Hardware Rollups (v6e + v7x)

❌ Failing: If the feature fails on either v6e or v7x.

✅ Passing: If the feature passes on BOTH v6e and v7x.

❓ Untested: If either generation is untested (and neither fails).

Release Support Matrices

Click to expand support matrices

Stable support status for official releases and production deployments.

✅ Tested Models

Model Type Unit Test Correctness Test Performance Test

google/gemma-3-27b-it Text ✅ ✅ ✅

meta-llama/Llama-3.1-8B-Instruct Text ✅ ✅ ✅

meta-llama/Llama-3.3-70B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3-30B-A3B Text ✅ ✅ ✅

Qwen/Qwen3-32B Text ✅ ✅ ✅

Qwen/Qwen3-4B Text ✅ ✅ ✅

Qwen/Qwen3-Coder-480B-A35B-Instruct Text ✅ ✅ ✅

Qwen/Qwen2.5-VL-7B-Instruct Multimodal ✅ ✅ ❌

deepseek-ai/DeepSeek-OCR Multimodal ❓ ❓ ❓

moonshotai/Kimi-K2.5 Multimodal ❓ ❓ ❓

Qwen/Qwen3-Omni-30B-A3B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3-VL-8B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3.5-9B Multimodal ❓ ❓ ❓

deepseek-ai/DeepSeek-Math-V2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-R1 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.1 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2-Speciale Text ❓ ❓ ❓

MiniMaxAI/MiniMax-M2.5 Text ❓ ❓ ❓

moonshotai/Kimi-K2-Thinking Text ❓ ❓ ❓

openai/gpt-oss-120b Text ❓ ❓ ❓

openai/gpt-oss-20b Text ❓ ❓ ❓

zai-org/GLM-5 Text ❓ ❓ ❓

🚀 Advanced Capabilities

Core Features

Feature Flax Torchax Default

async scheduler ✅ ✅ ✅

Chunked Prefill ✅ ✅ ✅

DCN-based P/D disaggregation ✅ ✅ ✅

LoRA_Torch ✅ ✅ ✅

Out-of-tree model support ✅ ✅ ✅

Prefix Caching ✅ ✅ ✅

Single Program Multi Data ✅ ✅ ✅

Speculative Decoding: Ngram ✅ ✅ ✅

Multimodal Inputs ✅ ❌ ✅

Speculative Decoding: Eagle3 ✅ ❌ ✅

hybrid kv cache ❓ ❓ ❓

KV cache host offloading ❓ ❓ ❓

multi-host ❓ ❓ ❓

runai_model_streamer_loader ❓ ❓ ❓

sampling_params ❓ ❓ ❓

Single-Host-P-D-disaggregation ❓ ❓ ❓

structured_decoding ❓ ❓ ❓

Parallelism Techniques

Feature Flax Torchax

Single-host Multi-host Single-host Multi-host

EP ✅ ❓ ✅ ❓

TP ✅ ❓ ✅ ❓

PP ❌ ✅ ❌ ❌

DP ❌ ❓ ✅ ❓

CP ❓ ❓ ❓ ❓

SP (vote to prioritize) ❓ ❓ ❓ ❓

Quantization Methods

Checkpoint dtype Method Supported
Hardware Acceleration Flax Torchax

AWQ INT4 v5, v6 ❓ ❓

FP4 W4A16 mxfp4 v7 ❓ ❓

FP8 W8A16 compressed-tensor v7 ❓ ❓

FP8 W8A8 compressed-tensor v7 ❓ ❓

INT4 W4A16 awq v5, v6 ❓ ❓

INT8 W8A8 compressed-tensor v5, v6 ❓ ❓

Note:

This table only tests checkpoint loading compatibility.

🔬 Microbenchmark Kernel Support

Category Test W16A16 W8A8 W8A16 W4A4 W4A8 W4A16

Moe Fused MoE ❓ ❓ ❓ ❓ ❓ ❓

gmm ❓ ❓ ❓ ❓ ❓ ❓

Dense All‑gather matmul ❓ ❓ ❓ ❓ ❓ ❓

Attention Generic Ragged Paged
Attention V3* ❓ ❓ ❓ ❓ ❓ ❓

MLA ❓ ❓ ❓ ❓ ❓ ❓

Ragged Paged
Attention V3 Head_Dim
64* ❓ ❓ ❓ ❓ ❓ ❓

Note:

For attention kernels, W[x]A[y] denotes KV cache as W, A as compute, and x, y as bit precision.

Model	Type	Unit Test	Correctness Test	Performance Test
google/gemma-3-27b-it	Text	✅	✅	✅
meta-llama/Llama-3.1-8B-Instruct	Text	✅	✅	✅
meta-llama/Llama-3.3-70B-Instruct	Text	✅	✅	✅
Qwen/Qwen3-30B-A3B	Text	✅	✅	✅
Qwen/Qwen3-32B	Text	✅	✅	✅
Qwen/Qwen3-4B	Text	✅	✅	✅
Qwen/Qwen3-Coder-480B-A35B-Instruct	Text	✅	✅	✅
Qwen/Qwen2.5-VL-7B-Instruct	Multimodal	✅	✅	❌
deepseek-ai/DeepSeek-OCR	Multimodal	❓	❓	❓
moonshotai/Kimi-K2.5	Multimodal	❓	❓	❓
Qwen/Qwen3-Omni-30B-A3B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3-VL-8B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3.5-9B	Multimodal	❓	❓	❓
deepseek-ai/DeepSeek-Math-V2	Text	❓	❓	❓
deepseek-ai/DeepSeek-R1	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.1	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2-Speciale	Text	❓	❓	❓
MiniMaxAI/MiniMax-M2.5	Text	❓	❓	❓
moonshotai/Kimi-K2-Thinking	Text	❓	❓	❓
openai/gpt-oss-120b	Text	❓	❓	❓
openai/gpt-oss-20b	Text	❓	❓	❓
zai-org/GLM-5	Text	❓	❓	❓

Feature	Flax	Torchax	Default
async scheduler	✅	✅	✅
Chunked Prefill	✅	✅	✅
DCN-based P/D disaggregation	✅	✅	✅
LoRA_Torch	✅	✅	✅
Out-of-tree model support	✅	✅	✅
Prefix Caching	✅	✅	✅
Single Program Multi Data	✅	✅	✅
Speculative Decoding: Ngram	✅	✅	✅
Multimodal Inputs	✅	❌	✅
Speculative Decoding: Eagle3	✅	❌	✅
hybrid kv cache	❓	❓	❓
KV cache host offloading	❓	❓	❓
multi-host	❓	❓	❓
runai_model_streamer_loader	❓	❓	❓
sampling_params	❓	❓	❓
Single-Host-P-D-disaggregation	❓	❓	❓
structured_decoding	❓	❓	❓

Feature	Flax	Torchax
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
PP	❌	✅	❌	❌
DP	❌	❓	✅	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓

Checkpoint dtype	Method	Supported Hardware Acceleration	Flax	Torchax
AWQ INT4		v5, v6	❓	❓
FP4 W4A16	mxfp4	v7	❓	❓
FP8 W8A16	compressed-tensor	v7	❓	❓
FP8 W8A8	compressed-tensor	v7	❓	❓
INT4 W4A16	awq	v5, v6	❓	❓
INT8 W8A8	compressed-tensor	v5, v6	❓	❓

Category	Test	W16A16	W8A8	W8A16	W4A4	W4A8	W4A16
Moe	Fused MoE	❓	❓	❓	❓	❓	❓
gmm	❓	❓	❓	❓	❓	❓
Dense	All‑gather matmul	❓	❓	❓	❓	❓	❓
Attention	Generic Ragged Paged Attention V3*	❓	❓	❓	❓	❓	❓
MLA	❓	❓	❓	❓	❓	❓
Ragged Paged Attention V3 Head_Dim 64*	❓	❓	❓	❓	❓	❓

Nightly Support Matrices

Click to expand support matrices

Support status for the latest nightly/main branch developments.

✅ Tested Models

Model Type Unit Test Correctness Test Performance Test

google/gemma-3-27b-it Text ✅ ✅ ✅

meta-llama/Llama-3.1-8B-Instruct Text ✅ ✅ ✅

meta-llama/Llama-3.3-70B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3-30B-A3B Text ✅ ✅ ✅

Qwen/Qwen3-32B Text ✅ ✅ ✅

Qwen/Qwen3-4B Text ✅ ✅ ✅

Qwen/Qwen3-Coder-480B-A35B-Instruct Text ✅ ✅ ✅

Qwen/Qwen3.5-397B-A17B Text ✅ ✅ ❌

openai/gpt-oss-120b Text ✅ ✅ ❓

Qwen/Qwen2.5-VL-7B-Instruct Multimodal ✅ ❌ ❓

deepseek-ai/DeepSeek-R1 Text ✅ ❓ ❓

google/gemma-4-26B-A4B-it Multimodal ❌ ❓ ❓

google/gemma-4-31B-it Multimodal ❌ ❓ ❓

deepseek-ai/DeepSeek-OCR Multimodal ❓ ❓ ❓

moonshotai/Kimi-K2.5 Multimodal ❓ ❓ ❓

Qwen/Qwen3-Omni-30B-A3B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3-VL-8B-Instruct Multimodal ❓ ❓ ❓

Qwen/Qwen3.5-9B Multimodal ❓ ❓ ❓

deepseek-ai/DeepSeek-Math-V2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.1 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2 Text ❓ ❓ ❓

deepseek-ai/DeepSeek-V3.2-Speciale Text ❓ ❓ ❓

MiniMaxAI/MiniMax-M2.5 Text ❓ ❓ ❓

moonshotai/Kimi-K2-Thinking Text ❓ ❓ ❓

openai/gpt-oss-20b Text ❓ ❓ ❓

zai-org/GLM-5 Text ❓ ❓ ❓

🚀 Advanced Capabilities

Core Features

Feature Flax Torchax Default

Chunked Prefill ✅ ✅ ✅

DCN-based P/D disaggregation ✅ ✅ ✅

LoRA_Torch ✅ ✅ ✅

Prefix Caching ✅ ✅ ✅

Single Program Multi Data ✅ ✅ ✅

Speculative Decoding: Ngram ✅ ✅ ✅

async scheduler ✅ ✅ ❌

Speculative Decoding: Eagle3 ✅ ❌ ✅

Out-of-tree model support ❌ ✅ ❌

Multimodal Inputs ❌ ❌ ❌

Single-Host-P-D-disaggregation ❌ ❓ ❌

hybrid kv cache ❓ ❓ ❓

KV cache host offloading ❓ ❓ ❓

multi-host ❓ ❓ ❓

runai_model_streamer_loader ❓ ❓ ❓

sampling_params ❓ ❓ ❓

structured_decoding ❓ ❓ ❓

Parallelism Techniques

Feature Flax Torchax

Single-host Multi-host Single-host Multi-host

EP ✅ ❓ ✅ ❓

TP ✅ ❓ ✅ ❓

PP ❌ ❌ ✅ ✅

DP ❌ ❓ ✅ ❓

CP ❓ ❓ ❓ ❓

SP (vote to prioritize) ❓ ❓ ❓ ❓

Quantization Methods

Checkpoint dtype Method Supported
Hardware Acceleration Flax Torchax

FP4 W4A16 mxfp4 v7 ❓ ❓

FP8 W8A16 compressed-tensor v7 ❓ ❓

FP8 W8A8 compressed-tensor v7 ❓ ❓

INT4 W4A16 awq v5, v6 ❓ ❓

INT8 W8A8 compressed-tensor v5, v6 ❓ ❓

Note:

This table only tests checkpoint loading compatibility.

🔬 Microbenchmark Kernel Support

Category Test W16A16 W8A8 W8A16 W4A4 W4A8 W4A16

Moe Fused MoE ❓ ❓ ❓ ❓ ❓ ❓

gmm ❓ ❓ ❓ ❓ ❓ ❓

Dense All‑gather matmul ❓ ❓ ❓ ❓ ❓ ❓

Attention Generic Ragged Paged
Attention V3* ❓ ❓ ❓ ❓ ❓ ❓

MLA ❓ ❓ ❓ ❓ ❓ ❓

Ragged Paged
Attention V3 Head_Dim
64* ❓ ❓ ❓ ❓ ❓ ❓

Note:

For attention kernels, W[x]A[y] denotes KV cache as W, A as compute, and x, y as bit precision.

Model	Type	Unit Test	Correctness Test	Performance Test
google/gemma-3-27b-it	Text	✅	✅	✅
meta-llama/Llama-3.1-8B-Instruct	Text	✅	✅	✅
meta-llama/Llama-3.3-70B-Instruct	Text	✅	✅	✅
Qwen/Qwen3-30B-A3B	Text	✅	✅	✅
Qwen/Qwen3-32B	Text	✅	✅	✅
Qwen/Qwen3-4B	Text	✅	✅	✅
Qwen/Qwen3-Coder-480B-A35B-Instruct	Text	✅	✅	✅
Qwen/Qwen3.5-397B-A17B	Text	✅	✅	❌
openai/gpt-oss-120b	Text	✅	✅	❓
Qwen/Qwen2.5-VL-7B-Instruct	Multimodal	✅	❌	❓
deepseek-ai/DeepSeek-R1	Text	✅	❓	❓
google/gemma-4-26B-A4B-it	Multimodal	❌	❓	❓
google/gemma-4-31B-it	Multimodal	❌	❓	❓
deepseek-ai/DeepSeek-OCR	Multimodal	❓	❓	❓
moonshotai/Kimi-K2.5	Multimodal	❓	❓	❓
Qwen/Qwen3-Omni-30B-A3B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3-VL-8B-Instruct	Multimodal	❓	❓	❓
Qwen/Qwen3.5-9B	Multimodal	❓	❓	❓
deepseek-ai/DeepSeek-Math-V2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.1	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2	Text	❓	❓	❓
deepseek-ai/DeepSeek-V3.2-Speciale	Text	❓	❓	❓
MiniMaxAI/MiniMax-M2.5	Text	❓	❓	❓
moonshotai/Kimi-K2-Thinking	Text	❓	❓	❓
openai/gpt-oss-20b	Text	❓	❓	❓
zai-org/GLM-5	Text	❓	❓	❓

Feature	Flax	Torchax	Default
Chunked Prefill	✅	✅	✅
DCN-based P/D disaggregation	✅	✅	✅
LoRA_Torch	✅	✅	✅
Prefix Caching	✅	✅	✅
Single Program Multi Data	✅	✅	✅
Speculative Decoding: Ngram	✅	✅	✅
async scheduler	✅	✅	❌
Speculative Decoding: Eagle3	✅	❌	✅
Out-of-tree model support	❌	✅	❌
Multimodal Inputs	❌	❌	❌
Single-Host-P-D-disaggregation	❌	❓	❌
hybrid kv cache	❓	❓	❓
KV cache host offloading	❓	❓	❓
multi-host	❓	❓	❓
runai_model_streamer_loader	❓	❓	❓
sampling_params	❓	❓	❓
structured_decoding	❓	❓	❓

Feature	Flax	Torchax
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
PP	❌	❌	✅	✅
DP	❌	❓	✅	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓

Checkpoint dtype	Method	Supported Hardware Acceleration	Flax	Torchax
FP4 W4A16	mxfp4	v7	❓	❓
FP8 W8A16	compressed-tensor	v7	❓	❓
FP8 W8A8	compressed-tensor	v7	❓	❓
INT4 W4A16	awq	v5, v6	❓	❓
INT8 W8A8	compressed-tensor	v5, v6	❓	❓

Category	Test	W16A16	W8A8	W8A16	W4A4	W4A8	W4A16
Moe	Fused MoE	❓	❓	❓	❓	❓	❓
gmm	❓	❓	❓	❓	❓	❓
Dense	All‑gather matmul	❓	❓	❓	❓	❓	❓
Attention	Generic Ragged Paged Attention V3*	❓	❓	❓	❓	❓	❓
MLA	❓	❓	❓	❓	❓	❓
Ragged Paged Attention V3 Head_Dim 64*	❓	❓	❓	❓	❓	❓

🤝 Contribute

We're thrilled you're interested in contributing to the vLLM TPU project! Your help is essential for making our tools better for everyone. There are many ways to get involved, even if you're not ready to write code.

Ways to Contribute:

🐞 Submit Bugs & Suggest Features: See an issue or have an idea? Open a new issue to let us know.
👀 Provide Feedback on Pull Requests: Lend your expertise by reviewing open pull requests and helping us improve the quality of our codebase.
📚 Improve Our Documentation: Help us make our guides clearer. Fix a typo, clarify a confusing section, or write a new recipe.

If you're ready to contribute code, our Contributing Guide is the best place to start. It covers everything you need to know, including:

Tips for finding an issue to work on (we recommend starting with our good-first issues!.

🌟 Contributors Wall

A huge thank you to everyone who has helped build and improve vllm-project/tpu-inference!

🌟 Contribution Type Legend & Ranking

Emoji Contribution Meaning

💻 Code Submitted merged pull requests or code changes.

🐛 Issues Opened valid issues or bug reports.

👀 Reviews Reviewed pull requests and provided feedback.

Emoji	Contribution	Meaning
💻	Code	Submitted merged pull requests or code changes.
🐛	Issues	Opened valid issues or bug reports.
👀	Reviews	Reviewed pull requests and provided feedback.

🏆 Ranking: Contributors are sorted from highest to lowest based on their total effort score (Total Commits + Unique Issues Opened + PRs Reviewed). If there is a tie, contributors are displayed alphabetically.

_{xiangxu-google} 💻	_jrplatin 🐛 👀 💻	_{buildkite-bot} 💻	_kyuyeunk 🐛 👀 💻	_py4 💻	_fenghuizhang 💻	_lk-chen 🐛 👀 💻
_{wenxindongwork} 👀 💻	_vanbasten23 👀 💻	_{sixiang-google} 💻	_lsy323 💻	_Lumosis 💻	_QiliangCui 👀 💻	_Chenyaaang 👀 💻
_bzgoogle 👀 💻	_gpolovets1 👀 💻	_{mrjunwan-lang} 👀 💻	_{yarongmu-google} 💻	_{wwl2755-google} 💻	_yaochengji 💻	_patemotter 👀 💻

...and more! Click to view all contributors.

_boe20211 💻	_jcyang43 👀 💻	_kwang3939 👀 💻	_bythew3i 💻	_pv97 👀 💻	_karan 🐛 💻	_{dennisYehCienet} 👀 💻
_syhuang22 👀 💻	_helloworld1 🐛 👀 💻	_ica-chao 💻	_richardsliu 👀 💻	_catswe 👀 💻	_RobMulla 🐛 💻	_xingliu14 🐛 💻
_{juncgu-google} 👀	_saltysoup 🐛	_weiyu0824 👀 💻	_andrewkvuong 💻	_{rupengliu-meta} 🐛 💻	_bvrockwell 🐛 💻	_sierraisland 💻
_wang2yn84 💻	_wdhongtw 💻	_JiriesKaileh 💻	_ylangtsou 💻	_amacaskill 💻	_BirdsOfAFthr 💻	_{patrickji2014} 👀 💻
_qihqi 🐛 💻	_yuanfz98 🐛	_cychiuak 💻	_{hosseinsarshar} 🐛 💻	_samos123 🐛	_AlienKevin 🐛	_dgouju 🐛
_eitanporat 🐛	_ernie-chang 💻	_lepan-google 🐛 💻	_{muskansh-google} 🐛	_saikat-royc 👀	_{abhinavclemson} 💻	_aman2930 💻
_BabyChouSr 🐛	_{CienetStingLin} 💻	_coolkp 💻	_{functionstackx} 🐛	_helloleah 💻	_{mailvijayasingh} 💻	_{QiliangCui2023} 👀
_shireen-bean 🐛	_{utkarshsharma1} 💻	_A9isha 💻	_AahilA 💻	_amishacorns 💻	_carlesoctav 🐛	_dannikay 💻
_depksingh 🐛	_{Dineshkumar-Anandan-ZS0367} 🐛	_dtrifiro 🐛	_erfanzar 🐛	_inho9606 💻	_jk1333 🐛	_jyj0w0 👀
_kuafou 💻	_kyle-google 💻	_Mhdaw 🐛	_{mokeddembillel} 🐛	_oindrila-b 🐛	_oliverdutton 🐛	_{pathfinder-pf} 🐛
_{piotrfrankowski} 🐛	_{reeaz27-droid} 🐛	_rupeng-liu 💻	_{salmanmohammadi} 🐛	_vlad-karp 💻	_XMaster96 🐛	_yixinshi 👀
_{yuyanpeng-google} 💻	_zixi-qi 💻	_zongweiz 🐛	_zzzwen 💻

💬 Contact us

For technical questions and feature requests, open a GitHub Issue
For feature requests, please open one on Github here
For discussing with fellow users, use the TPU support topic in the vLLM Forum
For coordinating contributions and development, use the Developer Slack
For collaborations and partnerships, contact us at vllm-tpu@google.com

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

0.19.0

May 5, 2026

0.19.0.dev20260506 pre-release

May 6, 2026

This version

0.18.0

Apr 20, 2026

0.18.0rc1 pre-release

Apr 13, 2026

0.18.0.dev20260505 pre-release

May 5, 2026

0.18.0.dev20260504 pre-release

May 4, 2026

0.18.0.dev20260503 pre-release

May 3, 2026

0.18.0.dev20260502 pre-release

May 2, 2026

0.18.0.dev20260501 pre-release

May 1, 2026

0.18.0.dev20260430 pre-release

Apr 30, 2026

0.18.0.dev20260429 pre-release

Apr 29, 2026

0.18.0.dev20260428 pre-release

Apr 28, 2026

0.18.0.dev20260427 pre-release

Apr 27, 2026

0.18.0.dev20260426 pre-release

Apr 26, 2026

0.18.0.dev20260425 pre-release

Apr 25, 2026

0.18.0.dev20260424 pre-release

Apr 24, 2026

0.18.0.dev20260423 pre-release

Apr 23, 2026

0.18.0.dev20260422 pre-release

Apr 22, 2026

0.18.0.dev20260421 pre-release

Apr 21, 2026

0.13.3

Dec 30, 2025

0.13.2.post6

Dec 30, 2025

0.13.2

Dec 30, 2025

0.13.2rc4.post6 pre-release

Dec 30, 2025

0.13.2rc4 pre-release

Dec 30, 2025

0.13.2rc3 pre-release

Dec 24, 2025

0.13.2rc2.post7 pre-release

Dec 24, 2025

0.13.2rc2 pre-release

Dec 24, 2025

0.13.2rc1.post7 pre-release

Dec 23, 2025

0.13.2rc1 pre-release

Dec 23, 2025

0.13.2a1 pre-release

Mar 5, 2026

0.13.2.dev20260420 pre-release

Apr 20, 2026

0.13.2.dev20260419 pre-release

Apr 19, 2026

0.13.2.dev20260418 pre-release

Apr 18, 2026

0.13.2.dev20260417 pre-release

Apr 17, 2026

0.13.2.dev20260416 pre-release

Apr 16, 2026

0.13.2.dev20260415 pre-release

Apr 15, 2026

0.13.2.dev20260414 pre-release

Apr 14, 2026

0.13.2.dev20260413 pre-release

Apr 13, 2026

0.13.2.dev20260412 pre-release

Apr 12, 2026

0.13.2.dev20260411 pre-release

Apr 11, 2026

0.13.2.dev20260410 pre-release

Apr 10, 2026

0.13.2.dev20260409 pre-release

Apr 9, 2026

0.13.2.dev20260408 pre-release

Apr 8, 2026

0.13.2.dev20260407 pre-release

Apr 7, 2026

0.13.2.dev20260406 pre-release

Apr 6, 2026

0.13.2.dev20260405 pre-release

Apr 5, 2026

0.13.2.dev20260404 pre-release

Apr 4, 2026

0.13.2.dev20260403 pre-release

Apr 3, 2026

0.13.2.dev20260402 pre-release

Apr 2, 2026

0.13.2.dev20260401 pre-release

Apr 1, 2026

0.13.2.dev20260331 pre-release

Mar 31, 2026

0.13.2.dev20260330 pre-release

Mar 30, 2026

0.13.2.dev20260329 pre-release

Mar 29, 2026

0.13.2.dev20260328 pre-release

Mar 28, 2026

0.13.2.dev20260327 pre-release

Mar 27, 2026

0.13.2.dev20260326 pre-release

Mar 26, 2026

0.13.2.dev20260325 pre-release

Mar 25, 2026

0.13.2.dev20260324 pre-release

Mar 24, 2026

0.13.2.dev20260323 pre-release

Mar 23, 2026

0.13.2.dev20260322 pre-release

Mar 22, 2026

0.13.2.dev20260321 pre-release

Mar 21, 2026

0.13.2.dev20260320 pre-release

Mar 20, 2026

0.13.2.dev20260319 pre-release

Mar 19, 2026

0.13.2.dev20260318 pre-release

Mar 18, 2026

0.13.2.dev20260317 pre-release

Mar 17, 2026

0.13.2.dev20260316 pre-release

Mar 16, 2026

0.13.2.dev20260315 pre-release

Mar 15, 2026

0.13.2.dev20260314 pre-release

Mar 14, 2026

0.13.2.dev20260313 pre-release

Mar 13, 2026

0.13.2.dev20260312 pre-release

Mar 12, 2026

0.13.2.dev20260311 pre-release

Mar 11, 2026

0.13.2.dev20260310 pre-release

Mar 10, 2026

0.13.2.dev20260309 pre-release

Mar 9, 2026

0.13.2.dev20260308 pre-release

Mar 8, 2026

0.13.2.dev20260307 pre-release

Mar 7, 2026

0.13.2.dev20260306 pre-release

Mar 6, 2026

0.13.2.dev20260305 pre-release

Mar 5, 2026

0.13.2.dev20260304 pre-release

Mar 4, 2026

0.13.2.dev20260303 pre-release

Mar 3, 2026

0.13.2.dev20260302 pre-release

Mar 2, 2026

0.13.2.dev20260301 pre-release

Mar 1, 2026

0.13.2.dev20260228 pre-release

Feb 28, 2026

0.13.2.dev20260227 pre-release

Feb 27, 2026

0.13.2.dev20260226 pre-release

Feb 26, 2026

0.13.2.dev20260225 pre-release

Feb 25, 2026

0.13.2.dev20260224 pre-release

Feb 24, 2026

0.13.2.dev20260223 pre-release

Feb 23, 2026

0.13.2.dev20260222 pre-release

Feb 22, 2026

0.13.2.dev20260221 pre-release

Feb 21, 2026

0.13.2.dev20260220 pre-release

Feb 20, 2026

0.13.2.dev20260219 pre-release

Feb 19, 2026

0.13.2.dev20260218 pre-release

Feb 18, 2026

0.13.2.dev20260217 pre-release

Feb 17, 2026

0.13.2.dev20260216 pre-release

Feb 16, 2026

0.13.2.dev20260215 pre-release

Feb 15, 2026

0.13.2.dev20260214 pre-release

Feb 14, 2026

0.13.2.dev20260213 pre-release

Feb 13, 2026

0.13.2.dev20260212 pre-release

Feb 12, 2026

0.13.2.dev20260128 pre-release

Jan 28, 2026

0.13.2.dev20260127 pre-release

Jan 27, 2026

0.13.2.dev20260126 pre-release

Jan 26, 2026

0.13.2.dev20260125 pre-release

Jan 25, 2026

0.13.2.dev20260124 pre-release

Jan 24, 2026

0.13.2.dev20260123 pre-release

Jan 23, 2026

0.13.2.dev20260122 pre-release

Jan 22, 2026

0.13.2.dev20260121 pre-release

Jan 21, 2026

0.13.2.dev20260120 pre-release

Jan 20, 2026

0.13.2.dev20260119 pre-release

Jan 19, 2026

0.13.2.dev20260118 pre-release

Jan 18, 2026

0.13.2.dev20260117 pre-release

Jan 17, 2026

0.13.2.dev20260116 pre-release

Jan 16, 2026

0.13.2.dev20260115 pre-release

Jan 15, 2026

0.13.2.dev20260114 pre-release

Jan 14, 2026

0.13.2.dev20260113 pre-release

Jan 13, 2026

0.13.2.dev20260112 pre-release

Jan 12, 2026

0.13.2.dev20260111 pre-release

Jan 11, 2026

0.13.2.dev20260110 pre-release

Jan 10, 2026

0.13.2.dev20260109 pre-release

Jan 9, 2026

0.13.2.dev20260108 pre-release

Jan 8, 2026

0.13.2.dev20260107 pre-release

Jan 7, 2026

0.13.2.dev20260106 pre-release

Jan 6, 2026

0.13.2.dev20260105 pre-release

Jan 5, 2026

0.13.2.dev20260104 pre-release

Jan 4, 2026

0.13.2.dev20260103 pre-release

Jan 3, 2026

0.13.2.dev20260102 pre-release

Jan 2, 2026

0.13.2.dev20260101 pre-release

Jan 1, 2026

0.13.2.dev20251231 pre-release

Dec 31, 2025

0.13.2.dev20251230 pre-release

Dec 30, 2025

0.13.0rc2.post7 pre-release

Dec 23, 2025

0.13.0rc2 pre-release

Dec 23, 2025

0.13.0rc1 pre-release

Dec 17, 2025

0.12.0

Dec 6, 2025

0.12.0rc2 pre-release

Dec 3, 2025

0.12.0rc1 pre-release

Dec 3, 2025

0.12.0.dev20251229 pre-release

Dec 29, 2025

0.12.0.dev20251228 pre-release

Dec 28, 2025

0.12.0.dev20251227 pre-release

Dec 27, 2025

0.12.0.dev20251226 pre-release

Dec 26, 2025

0.12.0.dev20251225 pre-release

Dec 25, 2025

0.12.0.dev20251224 pre-release

Dec 24, 2025

0.12.0.dev20251223 pre-release

Dec 23, 2025

0.12.0.dev20251222 pre-release

Dec 22, 2025

0.12.0.dev20251221 pre-release

Dec 21, 2025

0.12.0.dev20251220 pre-release

Dec 20, 2025

0.12.0.dev20251219 pre-release

Dec 19, 2025

0.12.0.dev20251218 pre-release

Dec 18, 2025

0.12.0.dev20251217 pre-release

Dec 17, 2025

0.12.0.dev20251216 pre-release

Dec 16, 2025

0.12.0.dev20251215 pre-release

Dec 15, 2025

0.12.0.dev20251214 pre-release

Dec 14, 2025

0.12.0.dev20251213 pre-release

Dec 13, 2025

0.12.0.dev20251212 pre-release

Dec 12, 2025

0.12.0.dev20251211 pre-release

Dec 11, 2025

0.12.0.dev20251210 pre-release

Dec 10, 2025

0.12.0.dev20251209 pre-release

Dec 9, 2025

0.12.0.dev20251208 pre-release

Dec 8, 2025

0.12.0.dev20251207 pre-release

Dec 7, 2025

0.12.0.dev20251206 pre-release

Dec 6, 2025

0.11.2rc3 pre-release

Nov 27, 2025

0.11.2rc2 pre-release

Nov 13, 2025

0.11.2rc1 pre-release

Nov 12, 2025

0.11.1

Oct 16, 2025

0.11.1rc3 pre-release

Oct 15, 2025

0.11.1rc2 pre-release

Oct 15, 2025

0.11.1rc1 pre-release

Oct 15, 2025

0.11.1.dev202512030818 pre-release

Dec 3, 2025

0.11.1.dev202512020844 pre-release

Dec 2, 2025

0.11.1.dev202512010850 pre-release

Dec 1, 2025

0.11.1.dev202511300812 pre-release

Nov 30, 2025

0.11.1.dev202511290830 pre-release

Nov 29, 2025

0.11.1.dev202511280814 pre-release

Nov 28, 2025

0.11.1.dev202511270815 pre-release

Nov 27, 2025

0.11.1.dev202511260843 pre-release

Nov 26, 2025

0.11.1.dev202511250817 pre-release

Nov 25, 2025

0.11.1.dev202511240815 pre-release

Nov 24, 2025

0.11.1.dev202511230812 pre-release

Nov 23, 2025

0.11.1.dev202511220812 pre-release

Nov 22, 2025

0.11.1.dev202511210828 pre-release

Nov 21, 2025

0.11.1.dev202511200814 pre-release

Nov 20, 2025

0.11.1.dev202511190816 pre-release

Nov 19, 2025

0.11.1.dev202511180814 pre-release

Nov 18, 2025

0.11.1.dev202511170815 pre-release

Nov 17, 2025

0.11.1.dev202511160811 pre-release

Nov 16, 2025

0.11.1.dev202511150811 pre-release

Nov 15, 2025

0.11.1.dev202511140813 pre-release

Nov 14, 2025

0.11.1.dev202511130813 pre-release

Nov 13, 2025

0.11.1.dev202511120814 pre-release

Nov 12, 2025

0.11.1.dev20251205 pre-release

Dec 5, 2025

0.11.1.dev20251204 pre-release

Dec 4, 2025

0.0.2rc1.post7 pre-release

Dec 23, 2025

0.0.1rc1 pre-release

Dec 4, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

tpu_inference-0.18.0.tar.gz (750.8 kB view details)

Uploaded Apr 20, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

tpu_inference-0.18.0-py3-none-any.whl (970.1 kB view details)

Uploaded Apr 20, 2026 Python 3

File details

Details for the file tpu_inference-0.18.0.tar.gz.

File metadata

Download URL: tpu_inference-0.18.0.tar.gz
Upload date: Apr 20, 2026
Size: 750.8 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.9

File hashes

Hashes for tpu_inference-0.18.0.tar.gz
Algorithm	Hash digest
SHA256	`966a643ddab4ca8094d492a48f548a555398b37a6f463294fe6d8a6190a9d036`
MD5	`9088c417f2be6ded813ed2b463ebc43a`
BLAKE2b-256	`4ae91439764de20923559333eee6bdd975d54cdc6c78d530e441eeb7555ef651`

See more details on using hashes here.

File details

Details for the file tpu_inference-0.18.0-py3-none-any.whl.

File metadata

Download URL: tpu_inference-0.18.0-py3-none-any.whl
Upload date: Apr 20, 2026
Size: 970.1 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.12.9

File hashes

Hashes for tpu_inference-0.18.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`54ff44d86654356a73570136504d9322de3b043e952791111d76d3a574407e91`
MD5	`5a92a6711899e12ab3b0c749297da8b1`
BLAKE2b-256	`3f1f5f2aef5f244acc8550c2743b66acd6c8b02ec4925c45a3794ddd0fca25fb`

See more details on using hashes here.

tpu-inference 0.18.0

Navigation

Verified details

Maintainers

Unverified details

Meta

Classifiers

Project description

Latest News

About

Recommended models and features

Get started

Recipes

TPU Support Matrix Dashboard

Release Support Matrices

Nightly Support Matrices

🤝 Contribute

🌟 Contributors Wall

💬 Contact us

Project details

Verified details

Maintainers

Unverified details

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

Feature	Flax	Torchax
Single-host	Multi-host	Single-host	Multi-host
EP	✅	❓	✅	❓
TP	✅	❓	✅	❓
PP	❌	✅	❌	❌
DP	❌	❓	✅	❓
CP	❓	❓	❓	❓
SP (vote to prioritize)	❓	❓	❓	❓