数据可视化第9天（利用wordcloud和jieba分析蝙蝠侠评论的关键字）

🕗 发布于 2024-05-25 14:05 信息可视化 windows

数据可以在这里下载
https://github.com/harkbox/DataAnalyseStudy

WordCloud

wordcloud可以很方便的生成词云图，方便的提供可视化
可以直接使用pip install wordcloud进行安装
如果使用的是Anaconda,可以使用conda install进行安装

下面看一个简单的例子

txt ="谜语 人家 里，他 把 布鲁斯·韦恩 的 照片 和 蝙蝠侠"

#font_path:如果含有中文，需要有中文字体的路径
#collocations=False，不包括重复的词
#max_words最多50个词
wordcloud=WordCloud(font_path='/System/Library/Fonts/Hiragino Sans GB.ttc',collocations=False,
                       width=800,height=600,max_words=50).generate(txt)
    
    
image=wordcloud.to_image()
image.show()

jieba

jieba是一个强大的中文分词库
存在三种分词模式，全模式，精确模式，搜索模式
使用jieba和wordcloud可以方便的实现对文章进行词云图分析
jieba使用cut切分文章
jieba.analyse.extract_tags()用来提取关键词

使用上述的两个库实现分析评论

import wordcloud
import jieba.analyse
filename='你的text文件名字'

with open(filename,encoding='utf-8') as f:
    data=f.read()
#topk=1000，提取最多1000个关键词，allowPOS='a'，提取的都#是形容词   
seg_list=jieba.analyse.extract_tags(data,topK=1000,allowPOS=("a"))
#将提取的关键词列表变为字符串并且用空格隔开，方便进行词云图的绘制
text=' '.join(seg_list)
wordcloud=WordCloud(font_path='/System/Library/Fonts/Hiragino Sans GB.ttc',width=800,height=600,                   collocations=False,max_words=100,background_color='black').generate(text)

image=wordcloud.to_image()
image.show()

效果如下，显然评论大多数认为过于拖沓
在这里插入图片描述

原文地址：https://blog.csdn.net/qq_43702629/article/details/139020549

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：解决Scrapy下载图片时, 报错 `tldextract` 缓存错误的问题
下一篇：前端 CSS 经典：SVG 描边动画

一次性入门三款分布式定时任务调度框架：Quartz、ElasticJob3.0、xxl-job
三款分布式任务调度框架，一篇文章全部入门
阅读更多2024-10-19
Python OpenCV精讲系列 - 目标检测与识别深入理解（二十）
Haar特征是一种简单的图像特征，用于检测局部图像结构的变化。它由一组简单的黑色和白色矩形组成，用于计算图像中不同区域之间的平均像素强度差异。HOG（Histogram of Oriented Gra
阅读更多2024-10-19
OpenMediaVault安装插件以及重置web控制台密码
需要安装好openmediavault-md插件。
阅读更多2024-10-19
快速了解kubernetes中的存储管理
Secret 对象类型用来保存敏感信息，例如密码、OAuth 令牌和 ssh key。- 敏感信息放在 secret 中比放在 Pod 的定义或者容器镜像中来说更加安全和灵活- Pod 可以用两种方式
阅读更多2024-10-19
代理 IP：促进在线教育资源普及与公平的新助力
当某个地区的网络拥堵时，学生可以通过代理 IP 选择其他网络较为畅通的线路，确保学习的顺畅进行。对于一些教育资源匮乏的地区，代理 IP 可以帮助学生访问其他地区的在线教育平台，获取更多的学习资料、课程
阅读更多2024-10-19
代码训练营 day38|LeetCode 62，LeetCode 63
今天主要学习了dp的一系列操作，今天难度不大，有点dp那味儿了加油，坚持打卡的第38天。
阅读更多2024-10-19
Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis 阅读
Dynamic 3D Gaussians:Tracking by Persistent Dynamic View Synthesis 论文阅读
阅读更多2024-10-19
JS模块化及import、export
本文探讨了模块化编程的背景与目的，强调了通过降低代码重复、提高可读性和便于维护等优势来改善软件开发过程。文章还介绍了五大模块化原则，包括单一职责原则和依赖倒置原则，以确保代码的灵活性和可扩展性。此外，
阅读更多2024-10-19
css 如何根据子元素给他的父元素设置样式
'active' : 'unactive' }">子元素啊根据一个变量来加样式</div>其中能马上想到的就是：这个class的判断可以加在parent后面，但是如果不改变
阅读更多2024-10-19
前端学习---(2)CSS基础
关于文字样式的属性，都具有继承性。这些属性包括：color、 text-开头的、line-开头的、font-开头的。CSS 是用来指定文档如何展示给用户的一门语言——如网页的样式、布局、等等。css语
阅读更多2024-10-19

数据可视化第9天（利用wordcloud和jieba分析蝙蝠侠评论的关键字）

WordCloud

jieba

使用上述的两个库实现分析评论

相关文章