为什么在加载大模型时，内存使用远小于模型本身的大小

🕗 发布于 2024-09-23 23:02 AIGC

今天在加载大模型的时候发现了一个问题，遂记录下来：

就是大模型本身大小是2.9G，为什么加载到内存以后，发现内存大小远小于模型本身的大小。

我是在非GPU单机器上通过transformers的AutoModelForCausalLM, AutoTokenizer加载的模型和分词器，这种加载方式，并不存在分段加载或分布式部署等情况。
理论上由于 CPU 环境没有显存限制，整个模型的权重文件（2.9G 或其他大小）会被一次性加载到主机内存（RAM）中。
而且只应该比2.9G大，不应该只有一半左右。

def _load_model_tokenizer(args):
    tokenizer = AutoTokenizer.from_pretrained(
        args.checkpoint_path, resume_download=True,
    )

    if args.cpu_only:
        device_map = "cpu"
    else:
        device_map = "auto"

    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        torch_dtype="auto",
        device_map=device_map,
        resume_download=True,
    ).eval()
    model.generation_config.max_new_tokens = 2048   # For chat.

    return model, tokenizer

后面经过分析发现，问题在config.json文件中torch_dtype的配置是bfloat16，这个配置项的意思是控制模型加载进内存时的精度，也就是一般我们训练和导出的模型是float32位，但是我们可以控制加载模型时的精度，所以torch_dtype=bfloat16就导致，模型实际在内存中并没有占用float32精度时的大小。

原文地址：https://blog.csdn.net/hahaha_1112/article/details/142461852

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：TCP是如何保证可靠传输的
下一篇：一行命令，一分钟轻松搞定SSL证书自动续期

5. 条件 Conditionals
python学习条件语句与代码风格
阅读更多2024-09-24
CAD的案例
在这个案例我会一步步教如何快速实现比如我们要复刻这个图形首先先画直线到这一步画斜线，很简单就是直线旋转30的角度。
阅读更多2024-09-24
如何设计一款高性能的数据库连接工具？过来看这里，这是一款号称拥有“光”一样链接速度的工具，我们看它是怎样实现的（第二节：Hikari是如何实现的底层逻辑）
续接上节接下来我们继续分析Hikari，它为什么怎么快呢？因为HikariCP没有spring.factories（在spring boot应用启动中会获取应用的ClassLoader进而获得所有ja
阅读更多2024-09-24
蓝桥等考Scratch组-样题-八级
（4）当按下空格键，Monkey 说：“变香蕉”2 秒，然后 Apple 切换成Bananas 造型；（6）Apple 切换成 Apple 造型，然后 Monkey 说：“再见”2 秒并隐藏。（5）A
阅读更多2024-09-24
探索未来科技前沿：云计算与大数据的深度融合
在当今这个数字化时代，信息技术（IT）的发展日新月异，其中云计算与大数据作为两大核心驱动力，正以前所未有的速度重塑着各行各业的生态格局。本文旨在深入探讨这一前沿趋势，揭秘云计算与大数据如何携手并进，共
阅读更多2024-09-24
基于DeepFace深度学习模型的离线版人脸识别API接口实现（类似百度在线API接口）
人脸识别技术经过数年的发展，在技术算法、识别性能、应用场景以及隐私保护和数据安全等方面都取得了显著的进步和成熟。
阅读更多2024-09-24
SaltStack的state定义主机状态及Jinja模版的使用
State 是 saltstack 系统中的配置语言,在日常运维中需要编写大量的 state 文件,例如:创建用户、安装软件、配置软件、服务运行等。需要编写一些 state SLs 文件，即状态配置文
阅读更多2024-09-24
828华为云征文 | 云服务器Flexus X实例，Docker集成搭建Halo博客平台
828华为云征文 | 云服务器Flexus X实例，Docker集成搭建Halo博客平台
阅读更多2024-09-24
ConcurrentHashMap的使用
ConcurrentHashMap是Java 并发包（java.util.concurrent）中提供的一个线程安全且高效的哈希表实现，用于在并发环境中存储键值对，它允许在多个线程之间安全地共享和修改
阅读更多2024-09-24
828华为云征文 | 将Vue项目部署到Flexus云服务器X实例并实现公网访问
华为云Flexus X实例是华为云推出的一款创新云服务器产品，它主要面向中小企业和开发者，旨在解决传统云服务中的痛点，提供更加灵活、高效的云服务体验。华为深刻洞察了中小企业和开发者在云服务应用中遇到的
阅读更多2024-09-24

为什么在加载大模型时，内存使用远小于模型本身的大小

相关文章