自然语言处理基础

🕗 发布于 2024-12-26 23:42 自然语言处理 人工智能

一：文本表示

1：词的独热表示

2：词的分布式表示

三大类自然语言处理任务：语言模型、基础任务、任务应用

基本任务可分为：文本分类、结构预测、序列到序列

一：文本表示

1：词的独热表示

缺点：无法表示语义关系，导致数据稀疏（很多0）

解决稀疏问题可以往向量中加入和词相关的泛化特征（词性特征、词义特征和词聚特征），以语义特征为例，引入WordNet等语义词典

什么是WordNet：WordNet介绍，一个开放知识图谱-CSDN博客

2：词的分布式表示

但是特征设计很费时，所以想设计一个可以自动提取特征并且设置特征值的方法

（1）最初分布式表示

根据每个词的上下文分布对词进行表示

I和like就有一定相似关性

也可以使用固定窗口作为共现矩阵的参与元素，这样可以表示词的局部特征，如果拿所在文档作为上下文参与元素那么获得的更多反应主题信息

缺点：

a. 高频词误导计算结果，例如I出现很多次那就和很多词语产生了相似关系

b. 共现频次无法反映词之间的高阶关系，例如A和B共现B和C共现，无法得知A和C也存在关系

c. 任然存在稀疏问题

（2）：点互信息（PMI）

（3）奇异值分解（SVD）

大致就是通过保留奇异值对角矩阵里面的部分，达到降为的效果

奇异值分解 (Singular Value Decomposition，SVD) - sun-a - 博客园

缺点：

a. 奇异值分解运行速度慢，每次语料库更新就要重新计算。

b. 只能用于比较短的单元，长了的话共现上下文也会很少，就无法获得有效的分布式表示。

3：词嵌入表示

词嵌入表示使用向量来表示词，简称为词向量。和分布式表示类似，区别在于赋值方式。分布式向量值是通过对语料库进行统计得到的，但是词向量是随着目标任务的优化过程自动调整的。

4：文本你的词袋表示

词袋-Bag-Of-Words BOW

主要是解决通过词的表示构成更长文本的表示。

将文本中的全部词所对应的向量表示（可为独热可以为分布式）相加，构成文本的向量表示。

缺点：

a. 没有考虑词的顺序信息，“张三喜欢李四”、“李四喜欢张三”的词袋表示结果是一样的。

b. 无法融入上下文信息。

二：自然语言处理任务

1：语言模型

语言模型可以计算一个词序列或者一句话的概率

（1）N元语言模型

由来：某个词序列在某个语料库中一个序列出现的概率为

但是我们会发现，句子越长它的概率出现可能会变为0。

于是假设下一个词的出现的概率只依赖于它前面n-1个词，这个假设被称为马尔科夫假设

满足这种假设的模型叫做N元语法或者N元文法模型。

当n=1的时候，独立于其历史，被记做unigram，在unigram中由于词与词相互独立，因此他是和语序无关的。

当n=2的时候，下个词只依赖于前1个词，对应对的二元语法叫做bigram，二元语法模型也叫做一阶马尔科夫链。

（2）平滑

虽然马尔科夫假设降低了句子概率为0的几率，但是当n比较大或者出现未登录词（OOV）时仍然会出现0概率的情况。由于数据稀疏性，训练数据很难覆盖测试数据中所有可能出现的N-gram，但是并不意味着这些N-gram出现的概率就是0。所以我们采用平滑。

平滑算法：包括折扣法（加1平滑法是折扣法的一种）等

折扣法：从频繁出现的N-gram中匀出一部分概率给低频次（包含0频次）的N-gram，从而使得整体概率分布趋于均匀。

加1平滑：它是一种典型的折扣法，也叫做拉普拉斯平滑。即假设所有的N-gram出现的频次都比实际出现的频次多1。缺点：当数据较小的时候，会给低频次（包含0频次）的N-gram过高的概率。

改进：加δ平滑，0<= δ<=1，δ为超参数。

（3）语言模型性能评价

为了进行内部测评，首先将数据集分为两个不相交的子集，训练集和测试集，其中训练集用于估计模型参数，由该模型计算出的测试集的概率反映了模型在测试集上的泛化能力。

困惑度（PPL），越小序列概率越大。

原文地址：https://blog.csdn.net/qq_43728463/article/details/144508266

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：设计模式の命令&访问者&迭代器模式
下一篇：机器学习中的密度聚类算法：深入解析与应用

机器学习之pandas
Pandas 是机器学习中不可或缺的工具，提供了强大的数据处理和分析能力。在处理实际的机器学习任务时，Pandas 可以帮助你高效地进行数据清洗、特征工程、数据拆分等步骤。通过与其他机器学习工具（如
阅读更多2024-12-27
深度解析 Python 网络框架：Django、Tornado、Flask 和 Twisted
Python 作为一门优秀的高级语言，广泛应用于 Web 开发、数据科学、人工智能等领域。其中，网络框架是构建高效 Web 应用和服务的基础工具。Django、Tornado、Flask 和 Twis
阅读更多2024-12-27
centos 7 中Selenium安装最新版Chrome WebDriver
报错解决方案参考：https://blog.csdn.net/ycsdn10/article/details/122224632。下载并安装了 glibc_2.25 版本也是没有用的，centos 7
阅读更多2024-12-27
Java-将一个大列表均分成多个小列表，每个小列表包含10个元素
我们可以创建一个工具类 ListUtils，其中包含一个方法 partition，用于将一个大列表均分成多个小。在Java中，将一个大列表均分成多个小列表，每个小列表包含指定数量的元素，可以通过以下步
阅读更多2024-12-27
uni-app 中使用微信小程序第三方 SDK 及资源汇总
🎀uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到 iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/
阅读更多2024-12-27
十三、e2studio VS STM32CubeIDE之“单独下载“程序
开发中需要频繁的下载程序，"在线调试"比"单独下载"时间长很多，单独下载可以提高工作效率keil、iar、stm32cubeide、rt-thread stud
阅读更多2024-12-27
云原生相关的 Go 语言工程师技术路线(含博客网址导航）
要成为云原生相关的 Go 语言工程师，需要深刻理解 Go 语言本身，并掌握容器化、Kubernetes、微服务架构、API 设计、CI/CD、监控与日志等云原生技术。此外，积极参与开源项目、学习云平台
阅读更多2024-12-27
Taro小程序开发性能优化实践
我们团队在利用Taro进行秒送频道小程序的同时，一直在探索性能优化的最佳实践。随着需求的不断迭代，项目中的性能问题难免日积月累，逐渐暴露出来影响用户体验。
阅读更多2024-12-27
Blender高效优化工作流程快捷小功能插件 Haggis Tools V1.1.5
Haggis Tools V1.1.5 是一款专为Blender设计的插件，旨在优化工作流程、减少单调和重复的任务，从而为艺术家节省时间。这款插件适用于多个版本的Blender，能够有效提升工作效率。
阅读更多2024-12-27
Blender真实灰尘粒子动画资产预设 Dust Particles Pro V1.2
Dust Particles Pro V1.2 是一款为Blender 3.5.1及更高版本设计的实时程序化粒子资产，由Geometry Nodes提供支持。这款资产不需要安装，因为它不是一个Pyth
阅读更多2024-12-27

自然语言处理基础

一：文本表示

1：词的独热表示

2：词的分布式表示

（1）最初分布式表示

（2）：点互信息（PMI）

（3）奇异值分解（SVD）

3：词嵌入表示

4：文本你的词袋表示

二：自然语言处理任务

1：语言模型

（1）N元语言模型

（2）平滑

相关文章