【AI知识点】共现矩阵（Co-occurrence Matrix）

🕗 发布于 2024-10-03 12:43 人工智能 矩阵线性代数 机器学习 自然语言处理

共现矩阵（Co-occurrence Matrix）是一种在自然语言处理中广泛使用的数学工具，用于表示词语在文本中相互出现的情况。它通常用于分析词语在文本中的共现关系，即哪些词语在同一上下文中经常一起出现。共现矩阵是生成词嵌入（Word Embedding）的一种重要方法，例如在GloVe模型中，它通过捕捉词语的共现信息来学习词语的语义表示。

1. 共现矩阵的定义

共现矩阵是一个词与词的矩阵，其行和列都代表词汇表中的词。矩阵中的每个元素表示在某个上下文窗口内，两个词在文本中一起出现的次数或概率。

形式化表示：

设 $V$ 是词汇表， $∣ V ∣$ 是词汇表的大小。共现矩阵是一个 $\times |V|$ 的矩阵 $M$ ，其中矩阵的每个元素 $M (i, j)$ 表示词 $i$ 和词 $j$ 在同一上下文窗口中共现的次数或概率。

行：表示目标词。
列：表示上下文中的词。
值：表示目标词和上下文词在特定窗口内共现的次数或共现的权重。

2. 共现矩阵的构建

要构建共现矩阵，首先需要定义一个上下文窗口，即我们关注的词语周围多少个词作为上下文。常见的窗口大小可以是2到10个词，这意味着我们只考虑目标词前后最多几个词的共现关系。

构建步骤：

选择上下文窗口：选择一个上下文窗口的大小，例如5个词，这意味着对于每个目标词，考虑它前面和后面各5个词作为上下文。
扫描文本：逐个扫描文档中的词，对于每个词 $w$ ，统计它在指定上下文窗口内与其他词的共现次数。
填充矩阵：共现矩阵的每个单元格表示目标词和上下文词之间的共现次数。将这些共现次数填入共现矩阵中。

示例：

假设我们有一个简单的文本：“我喜欢吃苹果和香蕉”，并且选择窗口大小为2（即考虑每个词的前后两个词作为上下文），词汇表为[“我”, “喜欢”, “吃”, “苹果”, “和”, “香蕉”]。

共现关系如下：

“我” 的上下文是“喜欢”、“吃”。
“喜欢” 的上下文是“我”、“吃”、“苹果”。
“吃” 的上下文是“我”、“喜欢”、“苹果”、“和”。
“苹果” 的上下文是“喜欢”、“吃”、“和”、“香蕉”。
“和” 的上下文是“吃”、“苹果”、“香蕉”。
“香蕉” 的上下文是“苹果”、“和”。

通过这些共现信息，可以构建如下的共现矩阵：

	我	喜欢	吃	苹果	和	香蕉
我	0	1	1	0	0	0
喜欢	1	0	1	1	0	0
吃	1	1	0	1	1	0
苹果	0	1	1	0	1	1
和	0	0	1	1	0	1
香蕉	0	0	0	1	1	0

在这个矩阵中，行表示目标词，列表示上下文词。比如，矩阵的 $(喜欢, 吃) = 1$ 表示“喜欢”和“吃”在同一上下文窗口中出现过1次。

3. 共现矩阵的应用

a. 词嵌入

共现矩阵可以用于生成词嵌入。在 GloVe（Global Vectors for Word Representation）等模型中，共现矩阵用于捕捉词语的语义关系。GloVe 使用词共现的对数概率来构建嵌入表示，假设如果两个词经常在相似的上下文中共现，它们的向量表示应该相似。

b. 文本相似性分析

共现矩阵可以用来衡量文本中词语的相似性。两个词如果频繁在相同的上下文中出现，那么可以认为它们在语义上是相关的。通过计算共现矩阵中不同词之间的相似性（例如使用余弦相似度（Cosine Similarity）），可以确定它们的语义相似程度。

c. 关键词提取

通过分析文本中的词语共现矩阵，能识别出那些在重要上下文中频繁出现的词，这些词可能是文档的关键词。共现次数越高，表示该词在文本中越重要。

d. 语义网络构建

共现矩阵能够用于构建语义网络，其中词语作为节点，共现关系作为边。通过分析网络中词语的连接性，可以挖掘出文本中的重要词语及其关联关系，进而构建词语的语义图。

4. 共现矩阵的优缺点

优点：

简单易用：共现矩阵的构建和计算相对简单，可以直观地反映词语之间的共现关系。
全局信息：它能够捕捉词语在整个语料库中的共现模式，从而保留了词语之间的全局语义信息。
可解释性强：共现矩阵能够清楚地展示词与词之间的共现次数，这使得它的结果容易理解。

缺点：

稀疏性：共现矩阵通常非常稀疏，尤其是在大规模词汇表下，大部分词对的共现次数都为零。这会导致矩阵存储和计算效率较低。
高维性：词汇表的大小决定了共现矩阵的维度，因此对于大型语料库来说，共现矩阵的维度会非常高，难以进行直接的高效计算。
上下文窗口的限制：共现矩阵依赖于人工设定的上下文窗口大小，无法自动调整窗口来捕捉远距离依赖关系。

5. 共现矩阵的改进方法

为了减少共现矩阵的高维稀疏性，常见的改进方法包括：

a. 降维

通过奇异值分解（SVD）等矩阵分解技术，可以将高维的共现矩阵降维到一个稠密的低维表示。这不仅减少了存储需求，还能提取出词语之间的潜在语义关系。

b. 加权共现

为了进一步增强共现矩阵的表示能力，可以为不同词对的共现次数加权。例如，GloVe模型中引入了加权函数，通过对高频和低频词对的共现信息进行平衡处理，避免了高频词对结果的过度影响。

c. 点互信息（PMI）

点互信息（PMI, Pointwise Mutual Information） 是一种用于度量词对共现信息的统计方法。通过计算每对词之间的PMI值，能够更好地量化它们的共现关系。PMI的计算公式为：

$PMI(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) \times P(w_j)}$

其中， $P(w_i, w_j)$ 是词 $w_i$ 和 $w_j$ 的联合概率， $P(w_i)$ 和 $P(w_j)$ 是词 $w_i$ 和 $w_j$ 的边缘概率。PMI 能够放大那些比随机出现更多的词对共现，抑制那些出现概率较低的词对。

6. 共现矩阵与词嵌入的关系

共现矩阵是生成词嵌入的一种重要方法，它帮助捕捉词语在上下文中的共现信息，反映词语之间的语义关系。通过对共现矩阵进行降维处理，能够生成具有语义信息的低维词嵌入向量。特别是在 GloVe 模型中，共现矩阵的作用尤为重要，它通过最小化词语对的共现概率差异，生成具有良好语义表达能力的词嵌入。

在生成词嵌入的过程中，共现矩阵往往会结合矩阵分解或降维方法，将高维稀疏的共现矩阵转化为低维稠密的词向量。这些词向量在向量空间中保留了词语的语义信息，因此语义相近的词在向量空间中的距离较近。

例如，GloVe 模型利用词语的共现矩阵和概率信息，将全局共现信息映射到稠密的词嵌入空间，并通过最小化嵌入向量之间的误差来学习词语的语义表示。

7. 共现矩阵与其他词嵌入方法的比较

Word2Vec vs. GloVe（基于共现矩阵）

Word2Vec：通过局部上下文窗口预测目标词或上下文词对，基于局部共现来生成词嵌入。它通过优化神经网络模型，使语义相近的词在向量空间中彼此靠近。
GloVe：通过全局共现矩阵学习词嵌入，使用词语对在语料库中出现的概率分布进行优化。它不仅考虑词语之间的局部上下文，还能捕捉全局的语义模式。

比较：

全局与局部信息：GloVe依赖全局共现信息，而Word2Vec更多依赖于局部上下文。GloVe可以捕捉到全局语义模式，但Word2Vec在处理上下文动态变化时可能更灵活。
训练方式：Word2Vec是通过预测上下文词或目标词进行训练，GloVe则基于对数共现概率的优化。
计算效率：共现矩阵需要对整个语料库进行统计，计算共现频率，因此可能比Word2Vec更耗时，尤其是在大规模语料库上。

8. 总结

共现矩阵是自然语言处理中的一种基础工具，用于捕捉词语在文本中的共现关系。它通过统计词与词之间的共现次数，生成一个大规模的矩阵，反映词语在不同上下文中出现的频率。共现矩阵在生成词嵌入（如GloVe模型）中扮演着关键角色，通过对共现数据的分析和降维处理，生成包含丰富语义信息的词向量。

共现矩阵的优势在于它能够捕捉全局的语义模式，帮助识别词语之间的相似性和依赖关系。然而，它也有高维稀疏、数据依赖性强等局限性。现代的词嵌入模型，如Word2Vec和GloVe，都基于共现信息生成词向量，并在各种自然语言处理任务中表现出色。

尽管共现矩阵本身存在稀疏性问题，但通过结合降维技术（如SVD）和优化算法（如GloVe），它仍然是词嵌入和语义表示学习中的重要工具。

原文地址：https://blog.csdn.net/weixin_43221845/article/details/142682268

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：828华为云征文 | 华为云Flexus云服务器X实例搭建Zabbix网络设备监视系统（Ubuntu服务器运维）
下一篇：Java使用Redis的详细教程

【SQL】仅出现一次的最大数据
子查询（Sub Query）本质上是一个完整的SELECT语句，它可以嵌套在另一个SELECT语句、INSERT语句、UPDATE语句或DELETE语句中。子查询的输出可以包括一个单独的值（单行子查询
阅读更多2024-10-03
Ansible Playbook原理与实践（Principles and Practice of Ansible Playbook）
Ansible Playbook 是 Ansible 的核心组件之一，它允许用户以 YAML 格式编写配置文件，用于描述希望远程系统执行的一系列任务。Playbook 提供了一种方式来编排和执行这些任
阅读更多2024-10-03
【PostgreSQL 】入门篇——支持的各种数据类型介绍，包括整数、浮点数、字符串、日期、JSON、数组等
PostgreSQL 提供了丰富的数据类型，以满足不同应用场景的需求。选择合适的数据类型可以提高数据库的性能和存储效率。在设计数据库时，应根据实际需求合理选择数据类型，以便于后续的数据操作和维护。希望
阅读更多2024-10-03
Linux之Docker虚拟化部署
第二个错误原因为系统环境变量中没有containerd,所以不能执行，编辑环境变量vim /etc/profile。重新启动docker，/usr/local/docker/dockerd即可成功看到
阅读更多2024-10-03
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
这篇论文的标题是《Enhancing Advanced Visual Reasoning Ability of Large Language Models》，由悉尼大学计算机学院的Zhiyuan Li
阅读更多2024-10-03
828华为云征文 | 利用FIO工具测试Flexus云服务器X实例存储性能
Flexus云服务器X实例的设计理念是提供一个更加灵活和高效的计算资源管理方式。其通过智能调整资源配置，能够更好地满足不同业务的需求，提高资源利用率。此外，该实例还提供了丰富的公共镜像供用户选择，方便
阅读更多2024-10-03
828华为云征文 | 华为云Flexus云服务器X实例搭建企业内部VPN私有隧道，以实现安全远程办公
使用华为云Flexus X服务器搭建一个VPN（Virtual Private Network）服务器可以帮助企业创建一个安全的网络连接，以便在公共网络上传输数据时更好地保护隐私和安全。
阅读更多2024-10-03
TypeScript 算法手册【快速排序】
快速排序是一种高效的、使用分治策略的排序算法。它的核心思想是"选择基准，分而治之"。想象一下，你是一位园丁，需要整理一大片杂乱的花园。你采用这样的策略：首先随机选择一株花作为参考，
阅读更多2024-10-03
java学习-idea编辑器基础使用设置
首先打开电脑中的idea编辑器，点击头部：File按钮 → Settings… 打开设置界面；
阅读更多2024-10-03
idea2024设置中文
今天下载idea2024.2版本，发现已经装过中文插件，但是还是不显示中文，找了半天原来还需要设置中文选项。
阅读更多2024-10-03