“嵌入”在大语言模型中是解决把句子转换成向量表示的技术

🕗 发布于 2024-11-14 13:45 语言模型 人工智能 自然语言处理

上一篇：《人工智能是这样理解“情绪”的》

序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本的含义或上下文。嵌入层的作用就在于把离散的语言符号（如单词或句子）转换成连续的向量，使得模型能更好地理解和处理语言之间的关系。其实我们人类的大脑也是这样干的，只是我们自己无法感知而已，我们最终得到的就是某个“记忆”，可以供人类随时使用的“记忆”也就是特征，所以让人工智能来识别人类说话中包含的情绪也只是将整句话转换成了向量后才能通过计算得到结论。

在 TensorFlow 人工智能开发框架中使用“嵌入”层

正如你在 Dense 和 Conv2D 中所见，tf.keras 使用嵌入层来实现嵌入。这会创建一个查找表，将一个整数映射到一个嵌入表，其中的内容是表示该整数对应单词的向量系数。例如，在上个章节的《傲慢与偏见》示例中，x 和 y 坐标会为我们提供某个书中人物的嵌入。当然，在实际的 NLP 问题中，我们会使用远多于两个维度。因此，向量空间中的向量方向可以视为编码了单词的“含义”，而那些指向大致相同方向的相似向量所代表的单词则可以被认为是与该单词相关的。

嵌入层将被随机初始化——也就是说，向量的坐标一开始是完全随机的，在训练过程中通过反向传播学习得到。当训练完成时，嵌入会粗略编码出单词之间的相似性，使我们可以基于这些单词的向量方向识别出某种程度上相似的单词。

这些内容相当抽象，所以我认为理解嵌入的最佳方式是动手实践。让我们从使用第五章的讽刺数据集来构建一个讽刺检测器开始。

使用”嵌入”技术设计一个讽刺情绪检测器

在第五章中，你加载并对一个名为《讽刺检测新闻标题数据集》的 JSON 数据集（简称讽刺数据集）进行了预处理。处理完成后，你会得到训练和测试数据及标签的列表。这些列表可以使用以下代码转换为 TensorFlow 训练所用的 Numpy 格式：

import numpy as np

training_padded = np.array(training_padded)

training_labels = np.array(training_labels)

testing_padded = np.array(testing_padded)

testing_labels = np.array(testing_labels)

这些数据是通过一个指定了最大词汇量和词汇外（OOV）标记的分词器生成的：

tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok)

要初始化嵌入层，你需要词汇量大小和指定的嵌入维度：

tf.keras.layers.Embedding(vocab_size, embedding_dim),

这将为每个单词初始化一个具有 embedding_dim 个点的数组。比如，如果 embedding_dim 为 16，那么词汇表中的每个单词都会被分配一个 16 维的向量。

随着时间推移，这些维度将通过反向传播学习得到，因为网络在学习如何将训练数据与标签匹配。

接下来一个重要步骤是将嵌入层的输出传递到一个全连接层。最简单的方法是像在卷积神经网络中一样使用池化。在这种情况下，嵌入的维度会被平均化，以产生一个固定长度的输出向量。

例如，考虑以下模型架构：

model = tf.keras.Sequential([

tf.keras.layers.Embedding(10000, 16),

tf.keras.layers.GlobalAveragePooling1D(),

tf.keras.layers.Dense(24, activation='relu'),

tf.keras.layers.Dense(1, activation='sigmoid')

])

model.compile(loss='binary_crossentropy',

optimizer='adam', metrics=['accuracy'])

这里定义了一个嵌入层，给定词汇量大小（10000）和一个 16 维的嵌入。让我们使用 model.summary 查看网络中的可训练参数数量：

Model: "sequential_2"

_________________________________________________________________

Layer (type) Output Shape Param #

=================================================================

embedding_2 (Embedding) (None, None, 16) 160000

_________________________________________________________________

global_average_pooling1d_2 ( (None, 16) 0

_________________________________________________________________

dense_4 (Dense) (None, 24) 408

_________________________________________________________________

dense_5 (Dense) (None, 1) 25

=================================================================

Total params: 160,433

Trainable params: 160,433

Non-trainable params: 0

_________________________________________________________________

由于嵌入层有一个 10,000 个单词的词汇表，且每个单词将是 16 维的向量，因此总的可训练参数数将为 160,000。平均池化层的可训练参数为 0，因为它只是将嵌入层中的参数平均，以获得一个 16 值的向量。

该向量随后被输入到 24 个神经元的全连接层。请记住，一个全连接神经元实际上是通过权重和偏置计算的，因此它将需要学习 (24 × 16) + 16 = 408 个参数。

该层的输出随后传递到最终的单神经元层，其中将有 (1 × 24) + 1 = 25 个参数需要学习。

如果我们训练该模型，在 30 个训练周期（epoch）后，我们可以获得 99%以上的训练准确率，但验证准确率仅为约 81%（图 6-2）。

这看起来似乎是合理的曲线，因为验证数据可能包含许多训练数据中不存在的单词。然而，如果你检查 30 个训练周期中训练和验证的损失曲线，就会发现一个问题。尽管你预期训练准确率高于验证准确率，但一个明显的过拟合指标是验证准确率随着时间略微下降（在图 6-2 中），而验证损失却急剧增加，如图 6-3 所示。

像这样的过拟合在 NLP 模型中很常见，因为语言具有某种不可预测的特性。在接下来的章节中，我们将探讨如何使用一些技术来减轻这一影响。

总结：嵌入技术通过将句子或单词转化为高维空间中的向量，使模型能更好地理解文本含义和上下文。在 TensorFlow 中，嵌入层通过查找表实现词向量表示，并在训练中逐渐学习文本之间的相似性。本书将通过讽刺情绪检测器的构建实例，演示嵌入层如何应用在 NLP 任务中，并揭示如何利用模型架构和训练技巧来优化文本分析效果。

原文地址：https://blog.csdn.net/JellyAI/article/details/143732179

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用ROS节点进行多无人机的画面同步接收
下一篇：hive的tblproperties支持修改的属性

【go从零单排】上下文（context）
在 Go 语言中，上下文（context）是一个重要的概念，主要用于管理请求的生命周期、传递取消信号、超时控制以及传递请求范围内的值。上下文通常与并发编程相关，尤其是在处理 HTTP 请求和其他 I/
阅读更多2024-11-15
Ubuntu 20.04 配置开发环境(持续更新)
搜狗输入法不能显示中文。
阅读更多2024-11-15
在ubuntu上安装ubuntu22.04并ros2 humble版本的docker容器记录
"registry-mirrors" : ["https://你的.mirror.swr.myhuaweicloud.com"],4、已经打包了ubuntu22
阅读更多2024-11-15
如何在 Ubuntu 22.04 上安装 ownCloud
ownCloud 是一个开源的个人云存储平台，它允许用户在本地服务器上存储和同步文件，提供了一个类似于 Dropbox 或 Google Drive 的服务，但是更加注重隐私和数据控制。文件存储：用户
阅读更多2024-11-15
idea 删除本地分支后，弹窗 delete tracked brank
在 IntelliJ IDEA 中，删除本地分支后弹出 “Delete tracked branch” 的提示，这表示删除的是一个跟踪分支（tracked branch）。具体来说，当前删除的本地分
阅读更多2024-11-15
「JVM详解」
JVM：全称 Java Virtual Machine，即 Java 虚拟机，一种规范，本身是一个虚拟计算机，直接和操作系统进行交互，与硬件不直接交互，而操作系统可以帮我们完成和硬件进行交互的工作
阅读更多2024-11-15
WPF中Prism框架的简单使用
自动匹配导入4.写Login.XAML代码和LoginViewModel代码LoginViewModel如下：5.创建其他的UserControl 并学好MainWindow.XAML和MainWin
阅读更多2024-11-15
Linux——GPIO输入输出裸机实验
在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上的表示可能非常小或甚至没有。在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上
阅读更多2024-11-15
planRAG运行记录
运行planRAG过程记录
阅读更多2024-11-15
vue面试题8|[2024-11-14]
vue面试题
阅读更多2024-11-15

“嵌入”在大语言模型中是解决把句子转换成向量表示的技术

相关文章