Megatron-lm、DeepSpeed

🕗 发布于 2024-05-15 20:30 大模型

1、为了训练更多的数据、更大的模型，提出了并行训练框架。

2、并行的方式：数据并行、模型并行（张量并行、流水线并行）。

3、Megatron-LM 综合应用了数据并行（Data Parallelism），张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）。

4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer)：显存优化的数据并行(data parallelism, DP)方案。

ZeRO将模型训练阶段，每张卡中显存内容分为两类：模型（参数、梯度、Adam状态）、剩余（激活值、临时缓冲区、显存碎片）。

猛猿-大模型预训练系列

原文地址：https://blog.csdn.net/jinselizhi/article/details/138915167

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：干什么副业好呢?
下一篇：Shell脚本＜＜EOF ... EOF语法（Here Document）（特殊的输入重定向方式）（定界符）

Python自然语言处理之snownlp模块介绍、安装与常见操作案例
SnowNLP是一个专为中文文本设计的Python库，它基于自然语言处理技术，提供了多种功能，包括分词、词性标注、情感分析、文本转换（简繁转换）、关键词提取、摘要生成、短语提取以及文本中词语之间的依存
阅读更多2024-10-06
Vue 插槽全攻略：重塑组件灵活性
Vue 的 slot 插槽是一种允许组件开发者定义动态内容区域的机制，使得父组件可以向子组件中插入内容。通过默认插槽、具名插槽和作用域插槽，Vue 实现了高度灵活的内容传递方式。默认插槽用于传递未命名
阅读更多2024-10-06
K8s域名解析方案CoreDNS(K8s Domain Name Resolution Solution CoreDNS)
CoreDNS 是一个灵活可扩展的 DNS 服务器，可以作为 Kubernetes 集群 DNS。与 Kubernetes 一样，CoreDNS 项目由 CNCF 托管。借助CoreDNS 服务器，可
阅读更多2024-10-06
Java中的数据合并与拆分：使用Stream API实现数据的灵活处理
在Java开发中，数据处理是最基础的操作之一，而在面对大量数据时，合并与拆分数据是常见的需求。无论是简单的数据集合操作，还是复杂对象的属性合并，Stream API 都能够灵活应对，并提高代码的可读性
阅读更多2024-10-06
简单vue指令实现 el-table 可拖拽表格功能
element 表格实现可以拖拽表格行改变顺序，vue 指令快速封装使用。
阅读更多2024-10-06
每日一题——第一百一十二题
【代码】每日一题——第一百一十二题。
阅读更多2024-10-06
港股大跌敲响警钟
应当说港股的突然大跌，给国庆节后将要开盘的沪、深两股市敲响了警钟。
阅读更多2024-10-06
Python 如何使用 Matplotlib 和 Seaborn 可视化数据
Matplotlib是 Python 中最基础的绘图库，几乎所有其他高级绘图库都依赖于它。它能够绘制各种静态、动态和交互式图形，比如折线图、柱状图、散点图、饼图等等。Matplotlib 非常灵活，可
阅读更多2024-10-06
2024年健康经济与大数据研讨会（HEBD 2024）2024 Seminar on Health Economics and Big Data
人力资源管理与组织行为;大会邀请来自国内外高等院校、科学研究所、企事业单位的专家、教授、学者、工程师参与其中，共同围绕“政策与伦理考量、智能机器人，机器学习，机器翻译、人工智能的基本理论与应用智能化。
阅读更多2024-10-06
面试题之- null和undefined的区别
undefined 和null 的区别有哪些
阅读更多2024-10-06

Megatron-lm、DeepSpeed

相关文章