架构师_程序员_码农网

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

搜索
查看: 99|回复: 0

【AI】(十)LLM 大模型推理 GPU 内存 VRAM 估算

[复制链接]
发表于 2025-3-10 14:46:38 | 显示全部楼层 |阅读模式
需求:在部署大语言模型的时候(DeepSeek、通义千问 qwen2.5),根据模型的参数量、激活、处理批量大小和精度因素的影响,所需 GPU 的 VRAM 内存也有所不同,如何估算部署所需的 VRAM 呢?

VRAM 介绍

VRAM(英文:Video RAM,即视频随机存取存储器),是计算机内存的一种,专用于存储像素等图形数据。作为影像绘图卡、显卡所使用的DRAM(记忆体),属于双端口随机访问记忆体,可让RAMDAC与影像处理同时访问。一般可包括两个部分,第一是数位电子的部分,用以接受微处理机的命令,将所收到的资料格式化。另一个是影像产生器的部分,用以将上述资料进一步形成视频信号。

手动计算

VRAM 使用量估算公式如下:

QQ截图20250310144911.jpg

参考地址:https://blog.eleuther.ai/transformer-math/

VRAM Estimator

这个工具可以估计基于transformer的模型用于推理和训练的GPU VRAM使用情况。它可以允许输入各种参数,如模型名称,精度,最大序列长度,批量大小,gpu数量。提供参数、激活、输出和CUDA内核的VRAM使用情况的详细细分。

地址:https://vram.asmirnov.xyz/,如下图:

QQ截图20250310144706.jpg

Hugging Face Accelerate Model Memory Calculator

这个工具可以计算用于推理和训练的模型的内存使用量。因为是Hugging Face的链接,所以可以输入模型名称或URL,该工具将提供内存使用情况的全面细分,包括数据类型、最大层、总大小和使用不同优化器的训练内存使用情况。

地址:https://huggingface.co/spaces/hf-accelerate/model-memory-usage


Can I Run This LLM


这是一个基于Transformer的更全面的工具,允许输入各种参数,并提供内存使用的详细细分。提供关于在推理和训练期间如何分配和利用内存的深入分析。

地址:https://huggingface.co/spaces/Vokturz/can-it-run-llm,如下图:

QQ截图20250310144806.jpg




上一篇:双精度(FP64)、单精度(P32、TF32)、半精度(FP16、BF16)
下一篇:Node.js 读取文件夹下所有文件(包含子文件夹)
码农网,只发表在实践过程中,遇到的技术难题,不误导他人。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

免责声明:
码农网所发布的一切软件、编程资料或者文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To:help@itsvse.com

QQ|手机版|小黑屋|架构师 ( 鲁ICP备14021824号-2 )|网站地图

GMT+8, 2025-3-21 21:26

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表