Skip to main content

A high-throughput and memory-efficient inference and serving engine for LLMs

Project description

vLLM-MindSpore Plugin

| 关于MindSpore | 文档 | LLM Infercence Serving SIG | 问题反馈 |

English | 中文


最新消息 🔥

  • [2025/08] 适配vLLM v0.9.1,新增支持LogProbs参数、Qwen2.5-VL模型。
  • [2025/06] 适配vLLM v0.8.3,新增支持vLLM V1架构、Qwen3大模型。
  • [2025/04] 完成vLLM v0.7.3适配,新增支持Automatic Prefix Caching、Chunked Prefill、Multi-step Scheduling、MTP等特性。联合openEuler社区和上海交通大学,实现DeepSeek全栈开源单机推理部署,你可以在这里阅读详细报道。
  • [2025/03] 完成vLLM v0.6.6.post1适配,支持采用vllm.entrypoints部署基于MindSpore的DeepSeek-V3/R1、Qwen2.5等大模型推理服务。联合openEuler社区和北京大学,发布全栈开源DeepSeek推理方案,你可以在这里阅读详细报道。
  • [2025/02] MindSpore社区正式创建了mindspore/vllm-mindspore代码,旨在将MindSpore大模型推理能力接入vLLM。

简介

vLLM-MindSpore插件(vllm-mindspore)是一个由MindSpore社区孵化的vLLM后端插件。其将基于MindSpore构建的大模型推理能力接入vLLM,从而有机整合MindSpore和vLLM的技术优势,提供全栈开源、高性能、易用的大模型推理解决方案。

vLLM-MindSpore插件以将MindSpore大模型接入vLLM,并实现服务化部署为功能目标。其遵循以下设计原则:

  • 接口兼容:支持vLLM原生的API和服务部署接口,避免新增配置文件或接口,降低用户学习成本和确保易用性。
  • 最小化侵入式修改:尽可能避免侵入式修改vLLM代码,以保障系统的可维护性和可演进性。
  • 组件解耦:最小化和规范化MindSpore大模型组件和vLLM服务组件的耦合面,以利于多种MindSpore大模型套件接入。

基于上述设计原则,vLLM-MindSpore插件采用如下图所示的系统架构,分组件类别实现vLLM与MindSpore的对接:

  • 服务化组件:通过将LLM Engine、Scheduler等服务化组件中的PyTorch API调用映射至MindSpore能力调用,继承支持包括Continuous Batching、PagedAttention在内的服务化功能。
  • 大模型组件:通过注册或替换模型、网络层、自定义算子等组件,将MindSpore Transformers、MindSpore One等MindSpore大模型套件和自定义大模型接入vLLM。
Description

vLLM-MindSpore插件采用vLLM社区推荐的插件机制,实现能力注册。未来期望遵循RPC Multi-framework support for vllm所述原则。

环境准备

  • 硬件:Atlas 800I A2推理服务器,或Atlas 800T A2推理服务器,已安装必要的驱动程序,并可连接至互联网
  • 操作系统:openEuler或Ubuntu Linux
  • 软件:
    • Python >= 3.9, < 3.12
    • CANN >= 8.0.0.beta1
    • MindSpore
    • vLLM

注:请参考版本配套,以获取详细的软件版本配套信息。

快速体验

首先请根据安装指南选择安装方式。环境安装成功后,运行如下命令启动vLLM服务和使用Qwen/Qwen3-8B模型:

vllm-mindspore serve Qwen/Qwen3-8B

请查看快速体验安装指南了解更多。

镜像构建

可使用以下命令构建vLLM-MindSpore插件的配套Docker镜像,通过参数-a选择相应的NPU类型进行构建,device_type表示设备类型,910b 为Atlas A2系列,310p 为Atlas 300I Pro/Duo和Atlas 300V Pro系列,默认为 910b

bash build_image.sh -a device_type

贡献

请参考 CONTRIBUTING 文档了解更多关于开发环境搭建、功能测试以及 PR 提交规范的信息。

我们欢迎并重视任何形式的贡献与合作,请通过Issue来告知我们您遇到的任何Bug,或提交您的特性需求、改进建议、技术方案。

SIG组织

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distributions

No source distribution files available for this release.See tutorial on generating distribution archives.

Built Distributions

If you're not sure about the file name format, learn more about wheel file names.

vllm_mindspore-0.5.0-cp311-none-any.whl (720.1 kB view details)

Uploaded CPython 3.11

vllm_mindspore-0.5.0-cp310-none-any.whl (710.9 kB view details)

Uploaded CPython 3.10

vllm_mindspore-0.5.0-cp39-none-any.whl (711.1 kB view details)

Uploaded CPython 3.9

File details

Details for the file vllm_mindspore-0.5.0-cp311-none-any.whl.

File metadata

  • Download URL: vllm_mindspore-0.5.0-cp311-none-any.whl
  • Upload date:
  • Size: 720.1 kB
  • Tags: CPython 3.11
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.10

File hashes

Hashes for vllm_mindspore-0.5.0-cp311-none-any.whl
Algorithm Hash digest
SHA256 033a67b24e54f1be896ded87f7c1d7388fb27a58806a84d1bfc5ca836074f0eb
MD5 f176a775d67092f94c7db452cab1bca2
BLAKE2b-256 2268cd4de5543d32038fd0408ee85a0882dea4f6cb2189680d14dc0d7f5ca26e

See more details on using hashes here.

File details

Details for the file vllm_mindspore-0.5.0-cp310-none-any.whl.

File metadata

  • Download URL: vllm_mindspore-0.5.0-cp310-none-any.whl
  • Upload date:
  • Size: 710.9 kB
  • Tags: CPython 3.10
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.10

File hashes

Hashes for vllm_mindspore-0.5.0-cp310-none-any.whl
Algorithm Hash digest
SHA256 4d2f8d1bf46e62a519e2fa4075858235d456f959c0ca1a2cea933e60676a4c5b
MD5 0506367ba0d823d56fef632c9d078927
BLAKE2b-256 7d27638fd5350377d942eb78e1e7ddb9fd021fe692af2d837ff0d0e82e694a8a

See more details on using hashes here.

File details

Details for the file vllm_mindspore-0.5.0-cp39-none-any.whl.

File metadata

  • Download URL: vllm_mindspore-0.5.0-cp39-none-any.whl
  • Upload date:
  • Size: 711.1 kB
  • Tags: CPython 3.9
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.11.10

File hashes

Hashes for vllm_mindspore-0.5.0-cp39-none-any.whl
Algorithm Hash digest
SHA256 82080dc77174f9ba3b9a18655038dff61bcf9a74673245651a20a377b5e545cb
MD5 3afb0d3e17f8dfef3a736786cdb3d6c4
BLAKE2b-256 6fe9f595c5404e954743f99f31337a7b1a74e8cc4496b1cb49ba635bf039aa25

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page