Word2Vec中的CBOW模型训练原理详细解析

🕗 发布于 2025-01-22 07:34 word2vec 机器学习 人工智能 nlp

Word2Vec中的CBOW模型训练原理详细解析

1. CBOW模型概述

CBOW模型的训练目标是利用一个单词周围的上下文单词来预测该单词本身。具体来说，给定当前单词的上下文单词，通过训练神经网络来最大化当前单词出现在这些上下文单词中的概率。

2. 模型结构

CBOW模型的结构如下：

输入层：输入为上下文单词的one-hot编码表示。
隐藏层：对输入的上下文单词向量进行平均，得到上下文向量。
输出层：通过一个 softmax 层预测当前单词的概率分布。

3. 符号定义

假设有一个词汇表，大小为 $V$ ，表示为 $W = \{w_1, w_2, ..., w_V\}$ 。对于每个单词 $w_i$ ，定义以下符号：

$x^{(i)}$ : 输入的one-hot编码向量，维度为 $\times 1$ ，仅在第 $i$ 个位置为1，其余为0。
$v_i$ : 输入词向量，维度为 $\times 1$ ，即嵌入层的参数。
$u_i$ : 输出词向量，维度为 $\times 1$ ，即 softmax 层的参数。

4. 模型训练流程

假设当前单词为 $w_o$ ，其上下文窗口大小为 $C$ ，则上下文单词序列为 $w_{o-C}, w_{o-C+1}, ..., w_{o-1}, w_{o+1}, ..., w_{o+C}$ 。

4.1 输入表示

将上下文单词的one-hot编码向量拼接起来，表示为：

$X = [x^{(o-C)}, x^{(o-C+1)}, ..., x^{(o-1)}, x^{(o+1)}, ..., x^{(o+C)}]$

4.2 隐藏层表示

CBOW模型对上下文单词的向量表示进行平均，得到上下文向量 $h$ ：

$\frac{1}{2C} \sum_{c=1}^{C} (v_{o-c} + v_{o+c})$

其中， $v_{o-c}$ 和 $v_{o+c}$ 分别表示上下文单词 $w_{o-c}$ 和 $w_{o+c}$ 的输入词向量。

4.3 输出层表示

通过 softmax 层计算当前单词 $w_o$ 出现的概率：

$P(w_o | context) = \frac{\exp(u_o^T h)}{\sum_{k=1}^{V} \exp(u_k^T h)}$

其中， $u_o$ 为当前单词 $w_o$ 的输出词向量。

4.4 损失函数

定义损失函数为负对数似然函数：

$-\log P(w_o | context) = -u_o^T h + \log \sum_{k=1}^{V} \exp(u_k^T h)$

目标是通过梯度下降算法最小化损失函数 $L$ 。

5. 模型训练

通过反向传播算法计算损失函数 $L$ 对模型参数 $v_i$ 和 $u_i$ 的梯度，并更新参数：

$v_i \leftarrow v_i - \eta \frac{\partial L}{\partial v_i}$

$u_i \leftarrow u_i - \eta \frac{\partial L}{\partial u_i}$

其中， $\eta$ 为学习率。

5.1 梯度计算

首先计算输出层的梯度：

$\frac{\partial L}{\partial u_o} = h - x_o$

$\frac{\partial L}{\partial u_k} = h \cdot \frac{\exp(u_k^T h)}{\sum_{j=1}^{V} \exp(u_j^T h)} \quad (k \neq o)$

其中， $x_o$ 为当前单词 $w_o$ 的one-hot编码向量。

然后计算隐藏层的梯度：

$\frac{\partial L}{\partial h} = \sum_{k=1}^{V} u_k \cdot \frac{\partial L}{\partial u_k}$

最后计算输入层的梯度：

$\frac{\partial L}{\partial v_i} = \frac{1}{2C} \cdot \frac{\partial L}{\partial h} \quad (i = o-C, o-C+1, ..., o-1, o+1, ..., o+C)$

6. 词向量获取

训练完成后，输入词向量 $v_i$ 即为单词 $w_i$ 的分布式表示。

7.总结

总而言之，CBOW是采取拿多个训练一个的思想。比如，现在有一串文本text = “abcdeadebcdae…”，统计出里面只有[a,b,c,d,e]这五个独一无二的‘字’。想要训练‘字’与‘字’之间的关联(比如“吃”和“饭”这两个词有关联，有时“睡觉”和“午休”这两个词可以相近表示，想要实现这个，就可以使用CBOW方法来实现。)

在这里插入图片描述

原文地址：https://blog.csdn.net/2303_77275067/article/details/145213459

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Spring Boot框架下的上海特产销售商城网站开发之旅
本项目基于Spring Boot框架开发，旨在创建一个网络上海特产销售商城网站。在黄菊华老师的指导下，该项目不仅涵盖了核心代码讲解和答辩指导，还提供了详尽的开发文档、开题报告、任务书及PPT等毕业设计
阅读更多2025-01-22
CKS认证 | Day1 K8s集群部署与安全配置
Kubernetes（K8s）是一个广泛使用的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。随着 K8s 在生产环境中的普及，安全运维成为确保系统稳定性和数据安全的关键。
阅读更多2025-01-22
.netframeworke4.6.2升级.net8问题处理
【代码】.netframeworke4.6.2升级.net8问题处理。
阅读更多2025-01-22
【Java】Java抛异常到用户界面公共封装
这里我们可以看到interface里面，不再是单纯函数的定义，还有函数的实现。这样使接口的实现多了一份灵活性，但是如果接口里单纯的只定义函数，没有函数的实现的话，可能代码逻辑和结构更加清晰一些，这也是
阅读更多2025-01-22
Redis：解锁集群共享Session的秘密武器
在当今互联网技术蓬勃发展的时代，分布式系统和集群架构已成为构建大规模、高并发应用的关键技术手段。然而，在享受这些技术带来的强大性能和扩展性的同时，我们也面临着一系列挑战，其中 Session 共享问题
阅读更多2025-01-22
【设计模式-行为型】观察者模式
他是朱元璋的锦衣卫
阅读更多2025-01-22
设计模式概述 - 设计模式的重要性
设计模式是经过验证的、可重用的解决方案，用于解决在软件设计中反复出现的问题。它们不是具体的代码实现，而是一种设计思想或模板，可以在不同的上下文中应用。模式名称：一个简洁的名称，用于描述模式的核心思想。
阅读更多2025-01-22
Web安全攻防入门教程——hvv行动详解
Web安全攻防是一个动态变化的领域，攻防技术日新月异。在学习Web安全的过程中，掌握基础的安全理论和常见的攻击类型、漏洞防御技术是最基本的要求。通过不断的学习和实践，你能够提升自己的安全攻防能力，保护
阅读更多2025-01-22
vue一键换肤
（2）设置全局scss变量。
阅读更多2025-01-22
VUE之参数传递
【代码】VUE之参数传递。
阅读更多2025-01-22

Word2Vec中的CBOW模型训练原理详细解析