架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

搜索
查看: 206|回复: 1

【AI】(九)使用 vLLM 企业级部署 DeepSeek-R1 模型

[复制链接]
发表于 2025-3-6 11:23:03 | 显示全部楼层 |阅读模式
需求:之前使用 Ollama 部署过 deepseek-r1:32b 模型,非常方便快捷,适合个人快速部署使用。如果作为企业生产环境应该使用什么方式部署呢?一般都采用 vllm、sglang 进行部署,本文是用 vLLM 部署 DeepSeek-R1模型。

Ollama 和 vLLM 对比

区别如下:

对比维度OllamavLLM
核心定位轻量级本地化工具,适合个人开发者和小规模实验生产级推理框架,专注高并发、低延迟的企业级场景
硬件要求支持 CPU 和 GPU,低显存占用(默认使用量化模型)必须依赖 NVIDIA GPU,显存占用高
模型支持内置预训练模型库(支持1700+模型),自动下载量化版本(int4为主)需手动下载原始模型文件(如 HuggingFace 格式),支持更广泛模型
部署难度一键安装,开箱即用,无需编程基础需配置 Python 环境、CUDA 驱动,依赖技术经验
性能特性单次推理速度快,但并发处理能力弱高吞吐量,支持动态批处理和千级并发请求
资源管理灵活调整资源占用,空闲时自动释放显存显存占用固定,需预留资源应对峰值负载


vLLM 简单介绍

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

配备全新算法的vLLM,重新定义了LLM服务的最新技术水平:. 与HuggingFace Transformers相比,它提供高达24倍的吞吐量,而无需进行任何模型架构更改。算力减半、吞吐增十倍,该研究将 vLLM 的吞吐量与最流行的 LLM 库 HuggingFace Transformers (HF),以及之前具有 SOTA 吞吐量的 HuggingFace Text Generation Inference(TGI)进行了比较。此外,该研究将实验设置分为两种:LLaMA-7B,硬件为 NVIDIA A10G GPU;另一种为 LLaMA-13B,硬件为 NVIDIA A100 GPU (40GB)。他们从 ShareGPT 数据集中采样输入 / 输出长度。结果表明,vLLM 的吞吐量比 HF 高 24 倍,比 TGI 高 3.5 倍。

vLLM 文档:https://docs.vllm.ai/en/latest/index.html
源码地址:https://github.com/vllm-project/vllm
性能测试:https://blog.vllm.ai/2024/09/05/perf-update.html

QQ截图20250306110059.jpg

图片不必看懂,牛就完事了!

环境准备

购买了腾讯云高性能应用服务,配置如下:

Ubuntu 20.04
环境配置:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
算力类型:两卡GPU基础型 - 2*16GB+ | 16+TFlops SP | CPU - 16 核 | 内存 - 64GB

安装 Conda

使用 conda 创建 python 环境,直接贴脚本:


使用 vLLM 部署 DeepSeek-R1

使用 conda 创建 python 环境,命令如下:


安装 vllm、modelscope,命令如下:


使用 modelscope 下载 DeepSeek-R1 模型,命令如下:


参考:https://modelscope.cn/docs/models/download

使用 vllm 启动 deepseek 模型,命令如下:


QQ截图20250306111117.jpg

如果遇到“Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla T4 GPU has compute capability 7.5. You can use float16 instead by explicitly setting the`dtype` flag in CLI, for example: --dtype=half.”警告,根据警告添加参数即可。

备注:

  • --tensor-parallel-size 和 GPU 数量设置一致
  • --gpu-memory-utilization 控制使用显存的百分比
  • --served-model-name API 中使用的模型名称
  • --disable-log-requests 禁用日志记录请求


vLLM Linux GPU 安装文档:https://docs.vllm.ai/en/latest/getting_started/installation/gpu/index.html
引擎参数:https://docs.vllm.ai/en/latest/serving/engine_args.html

查看 GPU 状态,如下图:

QQ截图20250306111158.jpg

使用 Postman 测试

浏览器打开:http://ip:8000/
接口文档:http://ip:8000/docs

QQ截图20250306102246.jpg

Postman 调用,如下图:


QQ截图20250306111838.jpg

基准测试

下载测试代码,命令如下:


执行命令如下:


结果:Throughput: 2.45 requests/s, 1569.60 total tokens/s, 1255.68 output tokens/s

QQ截图20250306112129.jpg

(完)




上一篇:家庭网络入手 GL-MT3000 路由器
下一篇:站长自媒体账号
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
 楼主| 发表于 2025-3-12 15:14:42 | 显示全部楼层
目前不支持在 Windows 上使用 vllm 或 sglang,如果您想在 Windows 上运行它,您可以改用 WSL(适用于 Linux 的 Windows 子系统)。
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2025-3-21 22:19

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表