Layer-Condensed KV——利用跨层注意（CLA）减少 KV 缓存中的内存保持 Transformer 1B 和 3B 参数模型的准确性

🕗 发布于 2024-12-12 06:38 深度学习 Transformer 人工智能 机器学习

导言

论文地址：https://arxiv.org/pdf/2405.12981
近年来，转换器模型在自然语言处理领域取得了长足的进步，在广泛的应用中取得了优异的成绩。然而，要最大限度地提高大规模语言模型的性能，对内存要求较高的键值（KV）缓存是必不可少的。特别是在处理长序列和大批量数据时，其内存消耗量非常大，给实际工作带来了挑战。

为解决这一难题，许多研究人员探索了提高 KV 缓存内存效率的方法。其中，多查询关注（MQA）和分组查询关注（GQA）已被广泛采用，它们允许多个查询头共享一个键/值头，是减少 KV 缓存大小的有效手段。不过，还需要进一步提高内存效率。

在此背景下，麻省理工学院和麻省理工学院-IBM 沃森人工智能实验室的研究人员提出了一种新方法–跨层注意力（CLA）。在保持模型准确性不变的情况下，进一步缩小模型的规模。

拟议方法（跨层关注）

为了解决变压器模型中 KV 缓存的内存问题，研究人员提出了一种新方法–跨层注意（CLA），即在相邻层之间共享键和值头，以这种方法在保持模型精度的同时，还能缩小相邻层之间的键和值头。本节将详细介绍 CLA 的设计及其具体操作。

CLA 的基本概念

在传统的转换器架构中，每一层都计算自己的键和值，并将其存储在 KV 缓存中。这种方法需要大量内存来处理长序列和大批量数据。相比之下，CLA 通过与相邻层共享某些层计算的键和值来减少内存使用量。

具体来说，CLA 的工作原理如下。

密钥/值计算和共享：有些层会计算自己的密钥和值，并将其存储在 KV 缓存中。相邻层则重新使用这些计算出的密钥和值（见图 1）。

-共享因子：键和值共享的层数称为 “共享因子”。例如，如果共享系数为 2，则每对图层都使用相同的键和值（见图 2）。

这种方法通过共享因子减少了 KV 缓存的内存使用量。

图 1：跨层关注（CLA）概念图

CLA 架构

CLA 设计可与传统的多重/查询注意（MQA）和分组/查询注意（GQA）相结合。传统的 MQA 和 GQA 在同一层中共享键和值，而 CLA 则在多层中共享。这样可以进一步节省内存。

协调和联络局的具体结构如下。

键/值投影：有些层执行自己的键和值投影，并将结果存储在 KV 缓存中。其他层则重复使用这些投影。
组合灵活性：CLA 可以与 MQA 和 GQA 结合使用，将各自的优势结合起来，以达到最佳的内存效率。

图 2：具有不同共享因素的 CLA 的构成

试验

本研究使用 1B 和 3B 参数模型进行了一系列实验，以测试所提出的跨层注意力（CLA）方法的有效性。

在所有实验中，模型都是在 SlimPajama 数据集上训练的。GPT-NeoX 标记符号化器被用作模型标记符号化器，并使用字节对编码（BPE）进行标记化。此外，还采用了基于 Llama 架构的预规范化、SwiGLU 激活函数和旋转位置嵌入。训练在 PyTorch 框架中使用英伟达 H100 GPU 进行。

1B 参数模型的实验结果

在 1B 参数模型中测试了各种 CLA 配置。其中，MQA-CLA2 配置表现出色（见图 3）。

图 3：1B 参数模型的实验结果。

∙MQA 和 CLA2 模型：与传统的 MQA 模型相比，头部尺寸从 64 到 512 不等的 MQA 和 CLA2 模型提高了精确度，同时减少了 KV 缓存内存。尤其是头部尺寸为 128 的模型，与传统 MQA 模型相比，内存使用量减少了一半，但精度几乎相同。
GQA/CLA2 模型：还测试了 GQA 和 CLA2 的组合模型，但最有效的是 GQA2/CLA2 配置，它比其他配置显示出更高的精度。

3B 参数模型的实验结果

我们还在 3B 参数模型中进行了实验，以验证 CLA 的有效性。结果再次证明，MQA-CLA2 配置最为有效。

128 字头维度的 MQA 模型：调整学习率后，MQA-CLA2 模型的准确性优于 128 字头维度的传统 MQA 模型。特别是，在维基文本数据集上观察到的困惑度差异很大（见表 5）。

表 5：3B 参数模型的实验结果

审议

1. 提高内存效率：据观察，CLA 可以有效减少 KV 缓存的内存使用量，同时保持接近的精确度，尤其是在共享系数为 2 的情况下。因此，与以前的架构相比，内存效率有了显著提高。

2. 保持准确性：使用 CLA 可以减少内存使用量，同时将准确性损失降到最低，这在序列较长、批量较大的情况下尤为有用。

3. 学习率的重要性：研究表明，调整学习率对模型的性能有显著影响，在 CLA 模型中，较高的学习率尤其有效。这表明 CLA 不仅能提高记忆效率，还能提高训练过程本身的效率。

这些结果表明，CLA 是一种可以成为变压器模型设计新标准的方法，在实用性和效率方面都具有显著优势。

结论

在本文中，我们提出了跨层关注（Cross-Layer Attention，CLA）作为一种新方法，以减少变压器模型中 KV 缓存的内存使用。并保持几乎相同的精度。实验结果，尤其是 1B 和 3B 参数模型的实验结果表明，CLA 在内存效率和精确度方面都表现出色。

未来前景包括 CLA 的进一步优化和扩展。例如，应用于不同的模型架构和更大的模型，以及验证 CLA 在长期序列中的有效性。同样重要的是，通过评估 CLA 在实际应用中的有效性，进一步确认 CLA 的实用性和有效性；CLA 将是推动变压器模型发展的重要一步。

原文地址：https://blog.csdn.net/matt45m/article/details/144407835

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：康谋方案 | 多源相机数据采集与算法集成测试方案
下一篇：前端打印功能(vue +springboot)

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

Layer-Condensed KV——利用跨层注意（CLA）减少 KV 缓存中的内存保持 Transformer 1B 和 3B 参数模型的准确性

导言

相关研究

多重查询注意（MQA）和分组查询注意（GQA）

KV 缓存压缩

删除不必要的 KV 缓存条目

通过结构调整减少 KV 缓存大小

训练记忆的效率

拟议方法（跨层关注）

CLA 的基本概念

CLA 架构

试验

1B 参数模型的实验结果

3B 参数模型的实验结果

审议

结论

Layer-Condensed KV——利用跨层注意（CLA）减少 KV 缓存中的内存保持 Transformer 1B 和 3B 参数模型的准确性

导言

相关研究

多重查询注意（MQA）和分组查询注意（GQA）

KV 缓存压缩

删除不必要的 KV 缓存条目

通过结构调整减少 KV 缓存大小

训练记忆的效率

拟议方法（跨层关注）

CLA 的基本概念

CLA 架构

试验

1B 参数模型的实验结果

3B 参数模型的实验结果

审议

结论

相关文章