【AI】（十）LLM 大模型推理 GPU 内存 VRAM 估算

小渣渣 · 发表于 2025-3-10 14:46:38

需求：在部署大语言模型的时候（DeepSeek、通义千问 qwen2.5），根据模型的参数量、激活、处理批量大小和精度因素的影响，所需 GPU 的 VRAM 内存也有所不同，如何估算部署所需的 VRAM 呢？

VRAM 介绍

VRAM（英文：Video RAM，即视频随机存取存储器），是计算机内存的一种，专用于存储像素等图形数据。作为影像绘图卡、显卡所使用的DRAM（记忆体），属于双端口随机访问记忆体，可让RAMDAC与影像处理同时访问。一般可包括两个部分，第一是数位电子的部分，用以接受微处理机的命令，将所收到的资料格式化。另一个是影像产生器的部分，用以将上述资料进一步形成视频信号。

手动计算

VRAM 使用量估算公式如下：

QQ截图20250310144911.jpg

参考地址：超链接登录可见。

VRAM Estimator

这个工具可以估计基于transformer的模型用于推理和训练的GPU VRAM使用情况。它可以允许输入各种参数，如模型名称，精度，最大序列长度，批量大小，gpu数量。提供参数、激活、输出和CUDA内核的VRAM使用情况的详细细分。

地址：超链接登录可见。，如下图：

QQ截图20250310144706.jpg

Hugging Face Accelerate Model Memory Calculator

这个工具可以计算用于推理和训练的模型的内存使用量。因为是Hugging Face的链接，所以可以输入模型名称或URL，该工具将提供内存使用情况的全面细分，包括数据类型、最大层、总大小和使用不同优化器的训练内存使用情况。

地址：超链接登录可见。

Can I Run This LLM

这是一个基于Transformer的更全面的工具，允许输入各种参数，并提供内存使用的详细细分。提供关于在推理和训练期间如何分配和利用内存的深入分析。

地址：超链接登录可见。，如下图：

QQ截图20250310144806.jpg

		自动登录	找回密码
密码			注册[Register]

【AI】（十）LLM 大模型推理 GPU 内存 VRAM 估算

相关帖子