XTuner 微调介绍

🕗 发布于 2024-04-20 15:55 AIGC 人工智能 python

本文主要简单介绍微调地基础知识，以及开源微调框架 XTuner的使用。

一. 微调简介

1. Finetune范式

当我们想要在别人地预训练模型上得到我们想要地能力时，通常我们有两种微调方式：

1. 增量预训练微调

2. 指令跟随微调

2. 一条数据地一生

我们需要地微调的原始数据首先需要转换成工具或模型支持的标准格式数据，然后再转换成为Tokenized数据，添加上标签，最后输入给模型进行训练。

不同的模型，数据格式可能不同，如下图中，LLama2和InterLM 的对话模板的开始，结束符不同。

3. LoRA & QLoRA

LoRA通过在原本的Liner曾旁边，新增一个支路，包含两个利阿努的小Linear，新增的支路通常叫做Adapter，也就是我们需要训练的参数。这个Adapter一般参数较小，使得我们可以在较小资源下进行模型的微调训练。

QLoRA 对比LoRA是进一步将模型的参数类型转换为了4bit 的数据，进一步降低了内存的消耗。

二. XTuner

1. Xtuner简介

XTuner 提供一整套的训练框架，从数据的处理，到内存优化，训练加速等。而且操作简单，0基础的非专业人员也能一键开始微调。同时对内存也做了大量优化，微调7B参数两的LLM，最小仅需要8GB显存即可。

XTuner也支持非常多硬件，软件生态，主流大模型都提供支持，可以一键开启训练。

Flash Attention和DeepSpeed ZeRO 是XTuner最重要的两个优化技巧。

Flash Attention将Atention计算并行化，避免计算过程中大量的显存占用；ZeRO通过状态切片，可进行多机多卡的训练，同时也能节省内存占用。

2. XTuner快速上手

3. 多模态微调

多模态微调对比文本单模态微调，新加入了将图像转换为图像向量输入给大模型，完成训练，即可得到图像分析的能力。

原文地址：https://blog.csdn.net/qq_37755518/article/details/137980179

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：K8S哲学 - probe 探针
下一篇：设计模式之状态模式（下）

图书管理新纪元：Spring Boot进销存系统
1系统概述1.1 研究背景随着计算机技术的发展以及计算机网络的逐渐普及，互联网成为人们查找信息的重要场所，二十一世纪是信息的时代，所以信息的管理显得特别重要。因此，使用计算机来管理图书进销存管理系统的
阅读更多2024-10-18
GPU编程（1）GPU架构
风扇在下面，采用热管方式，用气体液体的转化来带走热量。包裹热管的是铜制散热板，外围是铝制格扇，更快排除热量。注意，不是每一个cuda核心可以支持整数计算。视频接口个pcie都是直接连接GPU。所有的供
阅读更多2024-10-18
单链表算法题(二）（超详细版）
前言 : 通过算法题，学习解决问题的思路，再面对类似的算法题时，能快速定位解决方案
阅读更多2024-10-18
开机启动项怎么设置？简单四个方法，轻松设置开机启动（新手教学）
您是否曾在启动计算机或笔记本电脑时，遇到一堆应用程序同时弹出，导致系统启动缓慢？如果您此刻有着同样的经历，您可能正面临所谓的软件开机自启动的情况。这些应用会在每次开机时自动运行，虽然有些程序是默认设置
阅读更多2024-10-18
今日股市集体狂飙，下周一呢？
受利好消息刺激，今日上午还在起伏不定的沪深股市，但到了下午开盘后不久，沪深两市股指大幅拉升，沪指一度收复3300点，创业板指盘中涨超10%，尾盘涨幅略有收窄。全A成交额重返2万亿上方，场内超5000股
阅读更多2024-10-18
Knee Injury Detection using MRI with Efficiently-Layered Network (ELNet)
磁共振成像（MRI）是一种广泛接受的膝部损伤分析成像技术。其捕捉膝部三维结构的优势使其成为放射科医生定位膝部潜在撕裂的理想工具。为了更好地应对日益增长的肌肉骨骼（MSK）放射科医生的工作量，患者分流的
阅读更多2024-10-18
数论的第二舞——卡特兰数
当然了，虽然主角是卡特兰数，但是我们该学的数论还是不能落下的，首先先来介绍一个开胃小菜。
阅读更多2024-10-18
基于SSM+微信小程序的电子点餐管理系统（点餐1）
基于SSM+微信小程序的电子点餐管理系统实现了管理员及用户。管理员实现了首页、个人中心、餐品分类管理、特色餐品管理、订单信息管理、用户管理、特价餐品管理、活动订单管理、系统管理。用户实现了首页、特色餐
阅读更多2024-10-18
【AI整合包及教程】EchoMimic：开创数字人新时代，让静态图像“活”起来！
这一技术的核心在于它能够同时使用音频和面部关键点进行训练，通过新颖的训练策略，不仅能够通过音频和面部关键点单独生成肖像视频，而且还能够通过音频和选定的面部关键点的组合生成肖像视频。EchoMimic的
阅读更多2024-10-18
【Flutter】基础入门：代码基本结构
通过这个简单的 Flutter 示例程序，我们可以快速了解 Flutter 的代码结构，理解每个部分的作用。
阅读更多2024-10-18