LoRA技术详解---附实战代码

🕗 发布于 2024-10-09 05:21 深度学习 人工智能 python

LoRA技术详解—附实战代码

引言

随着大语言模型规模的不断扩大，如何高效地对这些模型进行微调成为了一个重要的技术挑战。Low-Rank Adaptation（LoRA）技术应运而生，它通过巧妙的低秩分解方法，显著减少了模型微调时需要训练的参数数量，同时保持了良好的性能表现。本文将深入介绍LoRA的原理，并通过详细的PyTorch代码实现来展示其工作机制。

LoRA的核心原理

基本思想

LoRA的核心思想是：在保持预训练模型权重不变的情况下，通过向每个转换器层添加低秩矩阵来实现模型的适应性调整。具体来说，对于原始的权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$ ，LoRA引入了如下的更新机制：

$W_0 + \Delta W = W_0 + BA$

其中：

$\in \mathbb{R}^{d \times r}$
$\in \mathbb{R}^{r \times k}$
$r$ 是一个远小于 $d$ 和 $k$ 的秩

关键特征

参数高效性：通过引入低秩分解，LoRA显著减少了需要训练的参数量。
初始化策略： $\Delta W$ 在训练开始时被初始化为零矩阵，确保了模型从原始性能开始逐步调整。
可扩展性：可以轻松应用于不同类型的层，如线性层和嵌入层。

实现细节分析

1. 初始化策略

LoRA的初始化策略非常关键：

对于线性层，矩阵A使用kaiming均匀初始化
对于嵌入层，矩阵A使用正态分布初始化
两种情况下，矩阵B都初始化为零，确保训练开始时 $\Delta W = BA = 0$

2. 缩放因子

缩放因子 $\frac{\alpha}{r}$ 的引入有两个主要作用：

控制LoRA更新的幅度
使得不同秩r的实验结果更具可比性

3. 前向传播

在前向传播中，LoRA的更新通过以下步骤实现：

计算原始层的输出
计算低秩更新： $A^T @ B^T) * \frac{\alpha}{r}$
将两部分结果相加

PyTorch实现详解

LoRA线性层实现

class Linear(nn.Module):
    def __init__(self, in_features: int, out_features: int, bias: bool, 
                 r: int, alpha: int = None):
        super().__init__()
        self.in_features = in_features
        self.out_features = out_features
        
        # 设置缩放因子
        if alpha is None:
            alpha = r
        self.scaling = alpha / r
        
        # 原始权重（冻结）
        self.weight = nn.Parameter(torch.empty((out_features, in_features)))
        self.weight.requires_grad = False
        
        # 偏置项处理
        if bias:
            self.bias = nn.Parameter(torch.empty(out_features))
            self.bias.requires_grad = False
        else:
            self.bias = None
            
        # LoRA参数初始化
        self.lora_a = nn.Parameter(torch.empty((r, in_features)))
        self.lora_b = nn.Parameter(torch.empty((out_features, r)))
        
        # 初始化
        with torch.no_grad():
            nn.init.kaiming_uniform_(self.lora_a, a=5 ** 0.5)
            nn.init.zeros_(self.lora_b)

    def forward(self, x: torch.Tensor):
        # 原始线性变换
        result = nn.functional.linear(x, self.weight, bias=self.bias)
        # 添加LoRA部分
        result += (x @ self.lora_a.T @ self.lora_b.T) * self.scaling
        return result

LoRA嵌入层实现

class Embedding(nn.Module):
    def __init__(self, num_embeddings: int, embedding_dim: int,
                 r: int, alpha: int = None):
        super().__init__()
        
        # 设置缩放因子
        if alpha is None:
            alpha = r
        self.scaling = alpha / r
        
        # 原始嵌入权重（冻结）
        self.weight = nn.Parameter(torch.empty((num_embeddings, embedding_dim)))
        self.weight.requires_grad = False
        
        # LoRA参数初始化
        self.lora_a = nn.Parameter(torch.empty((r, num_embeddings)))
        self.lora_b = nn.Parameter(torch.empty((embedding_dim, r)))
        
        # 初始化
        with torch.no_grad():
            nn.init.normal_(self.lora_a)
            nn.init.zeros_(self.lora_b)

    def forward(self, x: torch.Tensor):
        # 原始嵌入查找
        result = nn.functional.embedding(x, self.weight)
        # 添加LoRA部分
        result += (nn.functional.embedding(x, self.lora_a.T) @ self.lora_b.T) * self.scaling
        return result

原文地址：https://blog.csdn.net/qq_42896106/article/details/142767768

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：相机光源选型速记
下一篇：【自然语言处理】（2） --Word2Vec实现

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13

LoRA技术详解---附实战代码