Word Embedding

🕗 发布于 2024-11-26 13:22 embedding

依旧是课堂笔记

语言模型类型 – 神经语言模型 (NLM) 与词嵌入 (Word Embedding)

1. 什么是词嵌入 (Word Embedding)?

定义：
词嵌入是一种方法，将每个单词表示为连续向量空间中的实数向量。
- 这些向量基于单词的**语义（意义）和句法（用法）**关系，通过数学方式捕捉单词之间的相关性。
- 例如：
  - "cat" 的向量可能是 [0.2, 0.8, -0.3]
  - "dog" 的向量可能是 [0.1, 0.7, -0.4]
  - 由于 "cat" 和 "dog" 的语义相似，它们的向量在空间中会非常接近。

2. 在神经语言模型 (NLM) 中的作用

词嵌入如何解决数据稀疏问题：
- 传统的 N-Gram 模型需要大量数据，无法处理罕见词语或未见过的组合（数据稀疏问题）。
- 神经语言模型通过将单词转化为向量的方式，能更有效地捕获单词的上下文和语义，从而缓解这一问题。
如何作为输入：
- 在神经网络中，词嵌入向量被作为模型的输入，用于训练和预测。
- 每个单词的向量参数在训练过程中被学习，使模型能够动态调整表示，适应不同的上下文。

3. 学习的语义特性

神经语言模型中的词嵌入有以下特性：
1. 语义相似性：
  - 单词之间的语义关系体现在向量的距离上。
  - 例如：
    - "king" 和 "queen" 的向量在空间中非常接近。
    - "king - man + woman ≈ queen" 体现了逻辑关系。
2. 上下文依赖性：
  - 模型通过词嵌入学习单词在不同句子中的含义和用法。
  - 例如，“bank” 在 "river bank" 和 "financial bank" 中的向量表示可能不同。

4. 词嵌入的优势

解决传统方法的缺点：
- 不需要像 N-Gram 那样手动设计回退机制或权重。
- 能够处理更大的上下文，而参数量仅线性增加。
泛化能力：
- 神经语言模型支持不同上下文的泛化，能适应训练中未见过的单词组合。
提升性能：
- 在语音识别、机器翻译、文本生成等复杂任务中表现更优。

词嵌入在神经语言模型中的工作原理

图示架构解析：

输入层（Input Layer）：
- 输入的是单词序列，例如 W−1,W−2,Wn−1W_{-1}, W_{-2}, W_{n-1}W−1,W−2,Wn−1。
- 每个单词通过嵌入矩阵 Mn×pM_{n \times p}Mn×p 转换为对应的词嵌入向量：
  - nnn 是词汇表的大小，ppp 是嵌入向量的维度。
投影层（Projection Layer）：
- 单词的嵌入向量被组合并映射到一个共享空间。
- 这一过程将高维输入降维，生成适合神经网络处理的表示。
隐藏层（Hidden Layer）：
- 嵌入向量经过隐藏层，并通过非线性激活函数（例如 tanh）处理。
- 隐藏层的主要作用是学习单词之间的上下文关系，捕捉更复杂的语义和句法模式。
输出层（Output Layer）：
- 处理后的表示通过输出层（例如 softmax），预测下一个单词或执行其他自然语言处理任务。
- 示例：输入 "I want to"，输出层可能预测 "eat" 的概率最高。

词嵌入在神经语言模型中的优势

语义相似性：
- 语义相关的单词（例如 "king" 和 "queen"）在向量空间中更接近。
- 支持关系运算，例如：
  "king - man + woman = queen"
高效表示：
- 词嵌入是稠密且低维的表示，避免了传统稀疏表示（如独热编码）的高内存和高计算需求。
上下文泛化：
- 词嵌入能够根据上下文调整单词的语义表示，适应未见过的单词组合。

神经语言模型的应用

文本预测：
- 基于上下文预测下一个单词。
- 示例：输入 "I love"，模型可能预测 "chocolate"。
机器翻译：
- 不同语言的词嵌入映射到统一的向量空间，执行准确的翻译。
情感分析：
- 通过捕捉词嵌入中的语义信息，分析文本的情感倾向。

原文地址：https://blog.csdn.net/weixin_67075116/article/details/144038448

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：海外媒体发稿：根据您的要求编写二十个文案标题方法-华媒舍
下一篇：DM8 Docker环境部署

Linux 网络：交换芯片 EDSA 以太网帧简介
Linux，网络，EDSA，交换芯片，88E6320
阅读更多2025-01-24
【PCL】Segmentation 模块—— 条件欧几里得聚类（Conditional Euclidean Clustering）
PCL（Point Cloud Library）中的 Conditional Euclidean Clustering（条件欧几里得聚类）是一种点云分割算法，用于将点云数据划分为多个聚类（或称为“簇
阅读更多2025-01-24
Golang笔记—— error 和 panic
本文详细介绍Golang的两种错误处理机制：error 和 panic。
阅读更多2025-01-24
随机变量的变量替换——归一化流和直方图规定化的数学基础
变量替换是一种在统计学和数学中广泛应用的技术，它通过定义新的变量来简化问题，使得原本复杂的随机变量变得更加容易分析。变量替换的公式，用于将一个随机变量 XXX 的概率密度函数 fXf_XfX 转换为
阅读更多2025-01-24
Linux系统总结
Linux系统总结
阅读更多2025-01-24
Android SystemUI——通知栏构建流程（十六）
如果说 StatusBar 是代码最多最重要的一个，那 Notification 是使用最多，最广泛的一个。对于通知栏的构建与前面快捷设置面板相似，都是在状态栏（StatusBar）中完成的，这里我们
阅读更多2025-01-24
前端【5】-html+css实战项目--河大迎新网搭建
代码比较简单，主要是为了掌握常见标签和弹性盒子的使用,html,css搭建静态页面的学习到此为止啦~后面将会进行js动态交互页面的学习。
阅读更多2025-01-24
【unity游戏开发之InputSystem——02】InputAction的使用介绍（基于unity6开发介绍）
【unity游戏开发之InputSystem——02】InputAction的使用介绍（基于unity6开发介绍）
阅读更多2025-01-24
LeetCode：53. 最大子序和
LeetCode：53. 最大子序和
阅读更多2025-01-24
lvm快照备份实验
这个实验可以帮助你了解如何使用LVM快照备份MySQL数据库，并且在需要时可以使用备份文件恢复数据，确保数据的安全和完整性。通过上述实验，你可以实现一个简单的LVM快照备份MySQL数据库的过程，以保
阅读更多2025-01-24

Word Embedding

依旧是课堂笔记

语言模型类型 – 神经语言模型 (NLM) 与词嵌入 (Word Embedding)

1. 什么是词嵌入 (Word Embedding)?

2. 在神经语言模型 (NLM) 中的作用

3. 学习的语义特性

4. 词嵌入的优势

词嵌入在神经语言模型中的工作原理

图示架构解析：

词嵌入在神经语言模型中的优势

神经语言模型的应用

相关文章