【Finetune】（一）、transformers之BitFit微调

🕗 发布于 2024-09-19 18:35 大语言模型语言模型自然语言处理预训练 Finetune

文章目录

0、参数微调简介
1、常见的微调方法
2、代码实战

0、参数微调简介

参数微调方法是仅对模型的一小部分的参数（这一小部分可能是模型自身的，也可能是外部引入的）进行训练，便可以为模型带来显著的性能变化，在一些场景下甚至不输于全量微调。
由于训练一小部分参数，极大程度降低了训练大模型的算力需求，不需要多机多卡，单卡就可以完成对一些大模型的训练。不仅如此，少量的训练参数，对存储的要求同样降低很多，大多数的参数微调方法只需要保存训练部分的参数，与动辄几十GB的原始大模型相比，几乎可以忽略。

1、常见的微调方法

常见的微调方法如图所示：
在这里插入图片描述

Lialin, Vladislav, Vijeta Deshpande, and Anna Rumshisky. “Scaling down to scale up: A guide to parameter-efficient fine-tuning.” arXiv preprint arXiv:2303.15647 (2023).

2、代码实战

模型——bloom-389m-zh
数据集——alpaca_data_zh

2.1、导包

from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

2.2、加载数据集

ds = Dataset.load_from_disk("./alpaca_data_zh/")

2.3、数据集处理

tokenizer = AutoTokenizer.from_pretrained("../Model/bloom-389m-zh")
tokenizer

def process_func(example):
    MAX_LENGTH = 256
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer("\n".join(["Human: " + example["instruction"], example["input"]]).strip() + "\n\nAssistant: ")
    response = tokenizer(example["output"] + tokenizer.eos_token)
    input_ids = instruction["input_ids"] + response["input_ids"]
    attention_mask = instruction["attention_mask"] + response["attention_mask"]
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"]
    if len(input_ids) > MAX_LENGTH:
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

tokenized_ds = ds.map(process_func, remove_columns=ds.column_names)
tokenized_ds

2.4、创建模型

model = AutoModelForCausalLM.from_pretrained("../Model/bloom-389m-zh",low_cpu_mem_usage=True)

2.5、BitFit微调*

#选择模型参数里面的所有bias部分
#非bias部分冻结
num_param = 0
for name,param in model.named_parameters():
    if 'bias' not in name:
        param.requires_grad = False
    else:
        num_param+=param.numel()
num_param

2.6、配置模型参数

args = TrainingArguments(
    output_dir="./chatbot",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    logging_steps=10,
    num_train_epochs=1
)

2.7、创建训练器

trainer = Trainer(
    args=args,
    model=model,
    train_dataset=tokenized_ds,
    data_collator=DataCollatorForSeq2Seq(tokenizer, padding=True, )
)

2.8、模型训练

trainer.train()

2.9、模型推理

from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

ipt = "Human: {}\n{}".format("考试有哪些技巧？", "").strip() + "\n\nAssistant: "
pipe(ipt, max_length=256, do_sample=True, temperature=0.5)

原文地址：https://blog.csdn.net/qq_44426403/article/details/142344420

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Elasticsearch系列六】系统命令API
下一篇：开始你的博客之旅：从零到一的详细指南

Vue2 + ElementUI + axios + VueRouter入门
Vue2 + ElementUI + axios + VueRouter入门
阅读更多2024-10-05
云原生化 - 基础镜像（简约版）
根据最佳实践的建议，每个容器只做一件事，并尽可能较少基础镜像的内容，这里列举一些常用的基础镜像，可供选择。
阅读更多2024-10-05
【网络】用网线连接两台电脑实现远程桌面
在现代办公和学习中，远程桌面技术日益重要。通过局域网（LAN）连接两台电脑，可以轻松实现远程控制。本文将详细介绍如何使用网线连接两台电脑，并设置远程桌面功能，以便进行高效的协作和管理。
阅读更多2024-10-05
【pytorch】张量求导2
在阅读上图部分时，笔者一直在思考l是什么，再看之后发现，l此处指的是损失loss关于y的标量函数，因此l对于W的计算可以使用链式法则进行。
阅读更多2024-10-05
C# 事件和委托的详细介绍
通过事件和委托，你可以实现灵活的事件处理机制，允许对象之间的松耦合和异步通知。这在创建图形用户界面（GUI）应用程序或处理异步操作时尤为重要。
阅读更多2024-10-05
828华为云征文｜部署个人文档管理系统 Docspell
Docspell 是一款个人文档管理器。有时也被称为“文档管理系统”(DMS)。
阅读更多2024-10-05
828华为云征文｜部署开源超轻量中文OCR项目 TrWebOCR
TrWebOCR 是开源易用的中文离线OCR，识别率媲美大厂，并且提供了易用的web页面及web的接口，方便人类日常工作使用或者其他程序来调用。
阅读更多2024-10-05
深度学习基础—目标定位与特征点检测
在图片分类问题中，卷积神经网络的输出的特征向量会经过softmax单元，并最终输出类别，如果正在构建汽车自动驾驶系统的网络，那么对象可能包括以下几类：行人、汽车、摩托车和背景，这意味着图片中不含有前三
阅读更多2024-10-05
JMeter压测HTTPS 在window 11处理SSL证书认证
利用jdk中的keytool.exe工具，重新生成证书。crm 去到命令窗口，再去到JDK路径下，如下。在此位置，找到chrome 的证书。选择制作好的证书导入即可。证书到出到指定的路径，
阅读更多2024-10-05
解决跨域问题
首先新建一个vue.config.js文件。解决则参照vue-cli官网。首先可以先搭建后端接口。第二种通过代理来解决。
阅读更多2024-10-05