【Python机器学习】处理文本数据——用tf-idf缩放数据

🕗 发布于 2024-07-06 23:33 机器学习 tf-idf 深度学习 python 算法

为了按照我们预计的特征信息量大小来缩放特征，而不是舍弃那些认为不重要的特征，最常见的一种做法就是使用词频-逆向文档频率（tf-idf）。这一方法对某个特定文档中经常出现的术语给与很高的权重，但是堆在语料库的许多文档中都经常出现的属于给与的权重却不高。如果一个单词在某个特定文档中经常出现，但在其他文档中却不经常出现，那么这个单词很可能是对文档内容的很好描述。

scikit-learn在两个类中实现了tf-idf方法：TfidfTransformer和TfidfVectorizer，前者接受CountVectorizer生成的稀疏矩阵并将其转换，后者接受文本数据并完成词袋特征提取与tf-idf变换。

tf-idf缩放方案有几种变体。单词w在文档d中的tf-idf分数在TfidfTransformer类和TfidfVectorizer类中都有体现，其计算公式如下所示：

tfidf(w,d)=tf log ((N+1)/( $N_{w}$ +1))+1

其中，N是训练集中文档数量， $N_{w}$ 是训练集中出现单词w的文档数量，tf（词频）是单词w在文档d（想要变换或编码的文档）中出现的次数。两个类在计算td-idf表示之后都还应用了L2范数。换句话说，它们将每个文档的表示缩放到欧几里得范数为1。利用这种缩放方法，文档长度不会改变向量化表示。

由于tf-idf实际上利用了训练数据的统计学属性，所以我们将使用管道，以确保网格搜索的结果有效。所以会得到下列代码：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

pipe=make_pipeline(TfidfVectorizer(min_df=5),LogisticRegression())
param_grid={'logisticregression__C':[0.001,0.01,0.1,1,10,100]}

grid=GridSearchCV(pipe,param_grid=param_grid,cv=5)
grid.fit(text_train,y_train)

tf-idf代替仅统计词数，模型性能会有所提高。我们还可以查看tf-idf找到的最重要单词。要记住，tf-idf缩放的目的是找到能够区分文档的单词，但它完全是一种无监督技术。因此，这里的“重要”不一定与最终要寻找的标签有关。

首先，我们从管道中提取TfidfVectorizer

vectorizer=grid.best_estimator_.named_steps['tfidfvectorizer']
#变换训练数据集
X_train=vectorizer.transform(text_train)
#找到数据集中每个特征的最大值
max_value=X_train.max(axis=0).toarray().ravel()
sort_by_tfidf=max_value.argsort()
#获取特征名称
feature_names=np.array(vectorizer.get_feature_names())

tf-idf较小的特征要么是在许多文档中都很常用，要么就是很少使用，且仅出现在非常长的文档中。有趣的是，许多tf-idf较大的特征实际上对应的是特定的内容。

原文地址：https://blog.csdn.net/weixin_39407597/article/details/140208953

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：说一下浏览器中的强缓存和协商缓存的区别
下一篇：FlutterWeb渲染模式及提速

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

【Python机器学习】处理文本数据——用tf-idf缩放数据

相关文章