【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning

🕗 发布于 2024-11-11 10:58 论文阅读 prompt 大模型微调 人工智能

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: The Power of Scale for Parameter-Efficient Prompt Tuning
作者: Brian Lester, Rami Al-Rfou, Noah Constant
发表: EMNLP 2021
arXiv: https://arxiv.org/abs/2104.08691

基本信息

摘要

在这项工作中，我们探讨了“prompt tuning”，这是一种简单而有效的机制，用于学习“soft prompt”以条件化冻结的语言模型执行特定下游任务。

与GPT-3使用的离散文本提示不同，soft prompt是通过反向传播学习的，并且可以调整以包含来自任意数量token示例的信号。

我们端到端的学习方法在少样本学习方面优于GPT-3。

更令人惊讶的是，通过使用T5在模型大小上的消融实验，我们表明提示微调在规模上变得更加具有竞争力：当模型超过数十亿参数时，我们的方法缩小了差距并匹配了模型微调（所有模型权重都进行调整）的强大性能。

这一发现尤其相关，因为大型模型成本高昂且难以共享和部署，而能够重复使用一个冻结模型执行多个下游任务可以减轻这一负担。

我们的方法可以看作是Li和Liang最近提出的“prefix tuning”的简化，我们提供了与这一方法和其他类似方法的比较。

最后，我们表明，使用soft prompt条件化冻结模型可以带来在领域迁移中的鲁棒性优势，并使“prompt ensembling”变得高效。我们发布了代码和模型检查点以重现我们的实验。

Standard model tuning of T5 achieves strong performance, but requires storing separate copies of the model for each end task

prompt tuning、全量微调、使用GPT-3生成提示词三种方法之间的比较。

主要贡献

提出了prompt tuning，并展示了其在大型语言模型调整机制中的竞争力。
对许多设计选择进行了消融，并展示质量与鲁棒性随规模提升而提高。
展示了prompt tuning优于全量微调在领域迁移问题上的表现。
提出了“prompt ensembling”并展示其有效性。

Prompt Tuning

Model tuning requires making a taskspecific copy of the entire pre-trained model for each downstream task and inference must be performed in separate batches

prompt tuning只需要为每个下游任务训练一个soft prompt，而全量微调需要训练整个模型。

给定一系列 $n$ 个token， $\{x_1, x_2, \ldots, x_n\}$ ，T5 首先做的是嵌入这些token，形成一个矩阵 $X_e \in \mathbb{R}^{n \times e}$ ，其中 $e$ 是嵌入空间的维度。soft prompt被表示为一个参数 $P_e \in \mathbb{R}^{p \times e}$ ，其中 $p$ 是prompt的长度。然后，soft prompt被连接到嵌入的输入上，形成一个单一的矩阵 $[P_e; X_e] \in \mathbb{R}^{(p+n) \times e}$ ，然后像往常一样通过编码器-解码器。训练模型以最大化 $Y$ 的概率，但只有prompt参数 $P_e$ 被更新。

Prompt Ensemble

对一个下游任务训练多个Prompt，然后集成多个Prompt而不是多个模型。

实验

Ablations of various hyperparameters on prompt tuning performance (mean and stddev across 3 runs)

各种超参数对prompt tuning性能的影响。

Parameter usage of various adaptation techniques, fixing architecture to T5 1.1 and prompt/prefix length to 1–100 tokens (bands show mean and stddev)

与其他相似方法的比较。在具有可学习参数的方法中，提示调整是最参数高效的，对于超过十亿参数的模型，只需要不到0.01%的任务特定参数。

F1 mean and stddev for models trained on SQuAD and evaluated on out-of-domain datasets from the MRQA 2019 shared task

Mean and stddev of zero-shot domain transfer between two paraphrase detection tasks

领域迁移问题上的表现。

Performance of a five-prompt ensemble built from a single frozen T5-XXL model exceeds both the average and the best among the five prompts

prompt ensemble与prompt平均性能以及单个最好性能的比较。

总结

在这篇论文中，我们展示了prompt tuning是一种将冻结预训练语言模型适应下游任务的竞争性技术。

在流行的SuperGLUE基准上，其任务性能与传统模型调整相当，随着模型规模的增加，差距逐渐消失。

在零样本领域迁移中，我们发现prompt tuning导致了更好的泛化。这很可能表明，冻结通用语言理解参数并将下游学习限制在轻量级参数足迹内，有助于避免对特定领域的过度拟合。

除了任务质量指标之外，我们还讨论了转向冻结预训练模型在存储和服务器成本方面的吸引力。这一举措既实现了高效的多任务服务，也实现了高效的高性能提示集成。

展望未来，我们认为将任务定义参数与通用语言模型参数区分开来是一个令人兴奋的步骤，它为新的研究开辟了许多途径。

原文地址：https://blog.csdn.net/qq_63585949/article/details/143665543

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：区块链技术在版权保护中的应用
下一篇：JavaEE初阶---properties类+反射+注解

Go/Golang语言各种数据类型内存字节占用大小和最小值最大值
Go/Golang语言各种数据类型内存字节占用大小和最小值最大值
阅读更多2024-11-13
基于SpringBoot的“原创歌曲分享平台”的设计与实现（源码+数据库+文档+PPT)
本文首先介绍了原创歌曲分享管理的技术发展背景与发展现状，然后遵循软件常规开发流程，首先针对平台选取适用的语言和开发平台，根据需求分析制定模块并设计数据库结构，再根据平台总体功能模块的设计绘制平台的功能
阅读更多2024-11-13
[经典] 前端js将文件流导出为csv/excel文件
前端js将文件流导出为csv/excel文件
阅读更多2024-11-13
网络安全——下载并在kali虚拟机上启动Cobalt Strike
下载并在kali虚拟机上启动Cobalt Strike
阅读更多2024-11-13
EasyExcel 使用多线程按顺序导出数据
【代码】EasyExcel 使用多线程按顺序导出数据。
阅读更多2024-11-13
大数据常见面试题及答案（Linux、Zookeeper、Hadoop、Hive）
本文包括大数据常见技术问答面试题目及答案（Linux、Zookeeper、Hadoop、Hive）
阅读更多2024-11-13
AI 大模型在软件开发中的重塑之旅
提示：对软件开发传统流程与模式进行介绍，并对比AI在软件开发中应用的具体场景，如代码生成工具、智能调试等，展现AI带来的不同之处。AI 大模型是指基于深度学习技术，具有大规模参数和丰富知识的人工智能模
阅读更多2024-11-13
鸿蒙系统（HarmonyOS）与OpenHarmony
华为推出的鸿蒙系统（HarmonyOS）凭借其分布式架构及多设备协同能力在业界引起了广泛关注。与此同时，还有一个名为OpenHarmony的开源项目，它在推动物联网设备之间的互联互通。尽管两者同源，但
阅读更多2024-11-13
第8章利用CSS制作导航菜单
水平菜单导航栏是网站设计中应用范围最广的导航设计，一般放置在页面的顶部。导航适用性强，几乎所有类型的网站都可以使用，设计难度较低。如果导航过于普通，无法容纳复杂的信息结构，就需要在内容模块较多的情况下
阅读更多2024-11-13
mysql 常用命令（二)
mysql常用命令二
阅读更多2024-11-13

【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning

基本信息

摘要

主要贡献

Prompt Tuning

Prompt Ensemble

实验

总结

相关文章