241124_基于MindSpore学习GPT1

🕗 发布于 2024-11-29 01:11 学习

241124_基于MindSpore学习GPT1

在实际中，往往未标注的文本数据远多于已标注的，这些未标注的文本数据无法投入训练，又浪费

提出了一种方法，基于大量未标注的文本数据，训练预训练语言模型，学习到一些general的特征。然后使用已标注的文本数据，对模型针对某一特定下游任务进行finetune，微调，仅更改output layer，就是GPT1

存在问题：多元的下游任务难以有统一的优化目标。同时较难将预训练模型学到的信息传递到下游任务中。

be6cfbd4070ef24c15f831536d45e1c

这里就体现出来和bert的区别

bert两个任务：一个完形填空，一个上下文判断

gpt1只能实现单向的任务，根据前向的词判断后面的词，在文本生成的任务中表现较好

两个模型都是基于transformer衍生的分支，bert是双向的，需要看到前后文的整体信息，使用的是encoder结构，gpt1是单向的，看不到当前词后面的内容，用的decoder结构。

这里我们可以看到，右侧decoder结构中，中间那一层multihead attention层是用于处理从encoder中拿来的信息的，我们在gpt中没有encoder结构，所以此处也不需要这个多头注意力了，所以gpt使用的decoder是从transformer的decoder中去除了中间那层Multi-Head Attention。

Fine-Tuning

在已经训练好的gpt上额外加一层线性层。然后使用已经标注好的数据进行训练

这样出来的结果是模型自己计算出来的label，然后和正确的label进行计算误差，通过缩小目标与计算结果的误差进行模型优化

后续优化过程中发现，采用下述优化方式模型收敛速度更快

这里的L1说是最开始宏观的产生的output，具体实现如下：

根据下游任务的不同，输入和线性层可能会做一些改变

classification分类任务。entailment推理任务。similarity判断相似任务，multiple choice多项选择任务。

这里面要注意，在Similarity任务判断相似性中，只用一组就只能实现单向对比，比如第一行，只能判断1像不像2，但不能判断2像不像1，所以我们就要送一对进去。

在Multiple Choice任务中，每次都是问题和其中一个选项进行比较，然后通过Linear输出一个logits，最后我们把几个logits拿来进行比较，哪个大就输出哪个。

打卡截图：

原文地址：https://blog.csdn.net/weixin_66378701/article/details/144005059

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据结构（5）栈
下一篇：玩转 uni-app 静态资源 static 目录的条件编译

[java] java基础-字符串篇
public StringJoiner(间隔符号,开始符号,结束符号)：创建一个StringJoiner对象，指定拼接时的间隔符号，开始符号，结束符号。指JDK中提供的各种功能的Java类，这些类将底
阅读更多2025-01-24
【C++笔记】哈希表底层实现的深度剖析
哈喽，各位小伙伴大家好!上期我们讲了使用红黑树封装map和set。今天我们来讲一下哈希表底层实现的深度剖析。话不多说，我们进入正题！向大厂冲锋unordered_set的声明如下，Key就是unord
阅读更多2025-01-24
板球背后的数据魔法：如何用数据分析提升印度板球比赛策略
随着板球赛事的数据日益增多，分析技术和方法不断进步，数据已经成为理解和预测比赛结果的核心工具。无论是通过分析球员的个人表现、球队的整体策略，还是通过实时的比赛数据预测，板球比赛的未来将更加依赖数据驱动
阅读更多2025-01-24
数据分析 six库
six库是Python的一个兼容性库，旨在帮助开发者更轻松地编写同时兼容Python 2和Python 3的代码。它是由Ben Hoyt开发的，最初发布于2010年，并在Python社区中被广泛使用。
阅读更多2025-01-24
系统相关类——java.lang.Runtime 类（二）
小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第二个java.lang.Runtime 类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把
阅读更多2025-01-24
pandas基础：基本数据结构
类型，而选择多列时返回的是 DataFrame 类型。这种行为是设计上的选择，目的是为了提供更灵活的数据操作方式。中，当你从DataFrame中选择列时，选择的方式会影响返回的数据类型。具体来说，选择
阅读更多2025-01-24
快慢指针及原理证明(swift实现)
快慢指针是一种双指针技巧，常用于遍历链表或是数组。优势如下：1.线性时间复杂度：快慢指针能够在O(n)时间内完成遍历，比暴力方法更高效。2.实时处理：无需额外存储大规模数据，可以在流式日志处理中使
阅读更多2025-01-24
【数据库】详解MySQL数据库中索引的本质与底层原理
这个过程叫寻道，所消耗的时间叫做寻道时间。答：局部性原理：当一个数据被用到时，其附近的数据被用到的概率会增大，所以操作系统为了提高效率，读取数据时往往不是按需读取，而是每次都会预读，即使只需要一个字节
阅读更多2025-01-24
如何处理langcleanupsysprepaction.dll文件的丢失与损坏问题
在使用Windows操作系统时，有时可能会遇到一些DLL文件（动态链接库）丢失或损坏的问题，文件也不例外。这个文件虽然不像一些常见的系统DLL文件那样广为人知，但它对于某些特定的系统操作或应用程序来说
阅读更多2025-01-24
Couchbase UI: Indexes
在Couchbase中，索引的这些指标可以帮助你评估索引的性能和状态。
阅读更多2025-01-24

241124_基于MindSpore学习GPT1

241124_基于MindSpore学习GPT1

Fine-Tuning

相关文章