【深度学习】大模型中的LoRA的重要参数理解，dim维度和lora_alpha

🕗 发布于 2024-07-26 21:30 深度学习 人工智能

peft LoRA

LoRA（Low-Rank Adaptation）的重要参数如下：

init_lora_weights：用于初始化LoRA权重的方法，有几种选择：
- "kaiming_uniform"：默认的初始化方法，使用Kaiming均匀初始化权重A，权重B初始化为零。
- "gaussian"：使用高斯分布初始化权重A，权重B初始化为零。
- "pissa"：使用主奇异值和奇异向量初始化LoRA适配器，以加快收敛速度和提高性能。
- "pissa_niter_[number of iters]"：快速SVD方法，迭代次数决定误差和计算时间的平衡。
- False：不进行初始化，通常用于调试和测试。
target_modules：指定要应用LoRA的模块，可以是具体的层名称或使用“all-linear”应用于所有线性层。常用于QLoRA风格的训练。
lora_alpha：用于缩放每个前向传递中的适配器的固定标量，通常与rank相关联。
- 默认实现中，标量为 lora_alpha/r。
- Rank-stabilized LoRA（rsLoRA）中，标量为 lora_alpha/math.sqrt(r)。
layer_replication：用于层复制以扩展模型，例如将一个7B模型扩展到10B。指定复制的层序列，例如[[0,4], [2,5]]表示复制第0到第4层和第2到第5层。
use_rslora：是否使用Rank-stabilized LoRA，用于稳定适配器并提高性能。
- True：使用rsLoRA。
use_dora：是否使用Weight-Decomposed Low-Rank Adaptation (DoRA)，用于分解权重更新以改善低rank情况下的性能。
- True：使用DoRA。
lora_dropout：适配器的dropout率，用于防止过拟合。
r：LoRA的秩(rank)，即适配器的维度，影响参数的数量和适配器的表现。

示例代码如下：

from peft import LoraConfig

# 使用Kaiming均匀初始化
config = LoraConfig(init_lora_weights="kaiming_uniform", target_modules="all-linear", lora_alpha=32, layer_replication=[[0,4], [2,5]], use_rslora=True, use_dora=False, lora_dropout=0.1, r=16)

# 使用高斯分布初始化
config_gaussian = LoraConfig(init_lora_weights="gaussian", ...)

# 使用PiSSA初始化
config_pissa = LoraConfig(init_lora_weights="pissa", ...)

# 使用快速SVD的PiSSA初始化
config_pissa_fast = LoraConfig(init_lora_weights="pissa_niter_10", ...)

# 使用Rank-stabilized LoRA
config_rs = LoraConfig(use_rslora=True, ...)

# 使用Weight-Decomposed LoRA
config_dora = LoraConfig(use_dora=True, ...)

这些参数可以根据具体的需求进行调整，以优化模型的训练和性能表现。

dim维度和lora_alpha

LoRA（Low-Rank Adaptation）通过将全连接层的权重矩阵分解为两个低秩矩阵来减少参数数量并加快训练速度。让我们通过公式来详细解释LoRA的dim维度和lora_alpha。

1. 权重矩阵的低秩分解

假设我们有一个全连接层，其权重矩阵为 $\in \mathbb{R}^{d \times k}$ ，其中 $d$ 是输入维度， $k$ 是输出维度。LoRA将 $W$ 分解为两个低秩矩阵 $\in \mathbb{R}^{d \times r}$ 和 $\in \mathbb{R}^{r \times k}$ ，其中 $r$ 是分解的秩(rank)。

$\approx AB$

其中， $\ll \min(d, k)$ ，这样可以显著减少参数的数量。

2. LoRA的dim维度

dim维度即 $r$ ，表示分解的秩。选择合适的 $r$ 非常重要，因为它直接影响模型的参数数量和表示能力。假设输入向量为 $\in \mathbb{R}^{d}$ ，输出向量为 $\in \mathbb{R}^{k}$ ，则有：

$\approx ABx$

3. lora_alpha参数

lora_alpha是一个缩放因子，用于在每次前向传递中调整适配器的影响力。在原始实现中，适配器在每次前向传递中通过一个标量进行缩放，这个标量的值为：

$lora_alpha r \alpha = \frac{\text{lora\_alpha}}{r}$

因此，完整的计算公式为：

$lora_alpha r A B x y = Wx \approx \alpha ABx = \frac{\text{lora\_alpha}}{r} ABx$

综合公式

综合以上，可以得到LoRA的完整前向计算公式：

$lora_alpha r A B ) x y \approx \left(W + \frac{\text{lora\_alpha}}{r} AB\right)x$

其中， $W$ 是原始权重矩阵， $A$ 和 $B$ 是LoRA的低秩矩阵， $lora_alpha r \alpha = \frac{\text{lora\_alpha}}{r}$ 是缩放因子。

示例

假设我们有一个输入维度 $d = 128$ ，输出维度 $k = 256$ ，我们选择的dim维度 $r = 16$ ，并且lora_alpha=32，那么缩放因子 $\alpha$ 为：

$\alpha = \frac{32}{16} = 2$

所以，LoRA的前向计算公式为：

$\approx \left(W + 2AB\right)x$

通过这样的方法，LoRA可以有效地减少参数数量并加速训练，同时保持较高的模型性能。

原文地址：https://blog.csdn.net/x1131230123/article/details/140628866

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：GZ032 信息安全管理与评估赛项参考答案-模块1任务二 42-50
下一篇：上传文件传参 pc端vue的formData

代码随想录算法训练营第十六天|513. 找树左下角的值 112. 路径总和 106. 从中序与后序遍历序列构造二叉树
二叉树day4，涉及到一点点最简单的回溯
阅读更多2024-10-18
【学习】word保存图片
直接右键另存为的话，文件总是不清晰，截屏的话，好像也欠妥。可以另存为网页 .html。word中有想保存的照片。原图就放到了文件夹里面。
阅读更多2024-10-18
群晖前面加了雷池社区版，安装失败，然后无法识别出用户真实访问IP
有nas的相信对公网都不模式，在现在基础上传带宽能有100兆的时代，有公网代表着家里有一个小服务器，像百度网盘，优酷这种在线服务都能部署为私有化服务。但现在运营商几乎不可能提供公网ip，要么自己买个云
阅读更多2024-10-18
探索光耦：光耦——不间断电源（UPS）系统中的安全高效卫士
综上，光耦在不间断电源（UPS）系统中的应用，不仅提升了系统的安全性和可靠性，还为电源管理和信号传输提供了坚实保障。光耦通过光信号传输控制信号，确保信号在高频切换中保持稳定与准确，如电源切换时，光耦能
阅读更多2024-10-18
JavaFX学习系列--第一章: 简单Fx界面
版本为jdk8 （因为jdk8已经内置JavaFX库，高版本JDK中被剥离，需要额外下载jar 包），https://oc.gdufs.edu.cn 教学资源站点可下载JDK8（如果使用下面所述的i
阅读更多2024-10-18
力扣简单 876.快慢指针
while(fast!= null){
阅读更多2024-10-18
React 项目热更新失效问题的解决方案和产生的原因
通过以上的依赖升级、编码注意事项和预防措施，我们成功修复了 React 项目热更新失效的问题，并且为后续开发规避了类似的问提。在修复React项目热更新失效的问题时，经过一系列问题排查和依赖升级，最终
阅读更多2024-10-18
list转map常用方法
account -> account是一个返回本身的lambda表达式，其实还可以使用Function接口中的一个默认方法 Function.identity()，这个方法返回自身对象，更加简洁
阅读更多2024-10-18
Java 中简化操作集合的方法
通过本文的介绍，我们了解了如何在 Java 中简化集合操作，特别是在 Java 8 之后，StreamAPI 提供了一种更具表现力和简洁性的编程方式。与传统的显式循环和条件判断相比，使用流操作可以让代
阅读更多2024-10-18
vue3基础入门以及常用api使用
多个页面需要同一个功能就可以使用hooks,而且hooks里边能使用钩子例如onMounted等，还能用computeduseSum.ts。
阅读更多2024-10-18