深入理解Transformer的笔记记录(精简版本)---- ELMO-＞GPT-＞BERT

🕗 发布于 2024-10-12 07:10 transformer 笔记 gpt

1、ELMO

word embedding无法区分多义词的不同语义，其本质上是个静态的方式，所谓静态指的是训练好之后每个单词的表达就固定住了，以后使用的时候，不论新句子上下文单词是什么，这个单词的Word Embedding不会跟着上下文场景的变化而改变
ELMO根据当前上下文对Word Embedding动态调整的思路，事先用语言模型学好一个单词的Word Embedding，然后在我实际使用Word Embedding的时候，单词已经具备了特定的上下文了，这个时候可以根据上下文单词的语义去调整单词的Word Embedding表示。

1.1 ELMO采用了典型的两阶段过程：

（1）第一个阶段是通过语言模型LSTM进行预训练：
    上图左端的前向双层LSTM代表正方向编码器，输入的是从左到右顺序的上文Context-before；
    右端的逆向双层LSTM代表反方向编码器，输入的是从右到左的逆序的下文Context-after
    同时，每个编码器的深度都是两层LSTM叠加

（2）第二个阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding（E1,E2,E3）作为新特征补充到下游任务中。

双层双向LSTM: 虽然ELMO用双向LSTM来做encoding，但是这两个方向的LSTM其实是分开彼此独立训练的（一个从左向右预测，一个从右向左预测，在左边和右边的内部结构里，其本质还是单向），只是在最后在loss层做了个简单相加。对于每个方向上的单词来说，在一个方向被encoding的时候始终是看不到它另一侧的单词的，既解决了see itself的问题，又充分用上了上下文的语义。

1.2 使用方法

使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络，如果训练好这个网络后，再输入一个新句子，句子中每个单词都能得到对应的三个Embedding：

先将句子X作为预训练好的ELMO网络的输入
这样句子X中每个单词在ELMO网络中都能获得对应的三个Embedding

（1）第一个Embedding，是单词的Word Embedding
（

原文地址：https://blog.csdn.net/qq_40379132/article/details/142854167

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LAR-IQA
下一篇：解锁机器人视觉与人工智能的潜力，从“盲人机器”改造成有视觉能力的机器人（上）

Windows Defender Credential Guard does not allow using saved credentials
【代码】Windows Defender Credential Guard does not allow using saved credentials。
阅读更多2024-10-13
MySQL的基础使用
alter table 表名 add [column] 新字段名字段类型 [字段属性] [位置 first/after 字段名];:create table 表名(字段名字段类型[字段属性],字段
阅读更多2024-10-13
FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling
最近提出的FixMatch在大多数半监督学习（SSL）基准上取得了最先进的结果。然而，像其他现代SSL算法一样，FixMatch为所有类别使用预定义的恒定阈值来选择有助于训练的未标记数据，忽略了不同类
阅读更多2024-10-13
linux_ssh免密登录
SSH（Secure Shell）协议是一种安全的网络协议，认证原理是基于用户名密码和基于密钥对两种认证方式，本次讲解基于密钥对的认证方式，也就是免密登录。
阅读更多2024-10-13
路径规划——RRT、RRT*、RRT-Connect算法说明
RRT是一种快速的路径规划方法，通过随机采样不断扩展树，适用于复杂环境中的初步路径搜索。RRT* 是 RRT 的优化版本，强调寻找最优路径，在每次扩展时对路径进行修正和优化。通过双树结构加速路径找到过
阅读更多2024-10-13
利用 Llama 3.1模型 + Dify开源LLM应用开发平台，在你的Windows环境中搭建一套AI工作流
利用 Llama 3.1模型 + Dify开源LLM应用开发平台，在你的Windows环境中搭建一套AI工作流
阅读更多2024-10-13
AutoML：自动化机器学习的技术与应用
AutoML（自动化机器学习）是近年来机器学习领域的一个热门研究方向，它的核心目标是通过自动化手段完成机器学习工作流中的各个环节，使得非专业人员也能轻松构建高效的模型。在传统机器学习流程中，模型的选择
阅读更多2024-10-13
鸿蒙面试的一些可能问到的点
Link 装饰的变量和父组件会构建双向同步关系，子组件使用 @Link 定义变量的时候不需要赋值, 而是调用子组件的时候进行赋值，调用子组件赋值的时候使用 "$变量名" 的形式进行
阅读更多2024-10-13
【ICPC】The 2024 ICPC Kunming Invitational Contest J
最短路 #图论 #数据结构 #二分。
阅读更多2024-10-13
详解安卓和IOS的唤起APP的机制，包括第三方平台的唤起方法比如微信
App Links是Google推出的类似于Universal Links的技术，它允许你在Android上使用标准的HTTP链接来打开特定的应用程序。Universal Links是苹果推出的一种更
阅读更多2024-10-13

深入理解Transformer的笔记记录(精简版本)---- ELMO-＞GPT-＞BERT

1、ELMO

1.1 ELMO采用了典型的两阶段过程：

1.2 使用方法

相关文章