微博聚类文本分析和可视化
本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。
数据预处理
-
prepro.py、pre_graph.py、senti_pre.py
为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件
PS:
prepro.py 运行时根据需要修改123、143、166行三处代码
pre_graph.py 运行时根据需要修改127、140行两处代码
senti_pre.py 运行时根据需要修改第119行代码
-
zh_wiki.py、langconv.py
这两个py文件是用于繁体转简体的无需修改
数据分析和可视化
词云:wc.py(需要跑完prepro.py)根据需要修改3、19、26行代码
热度地图: map.py(需要跑完prepro.py)
根据需要修改第8行代码
转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)
微博评论关系图: graph.py(需要跑完pre_graph.py)(参考)
文本聚类: cluster_tfidf.py 和 cluster_w2v.py(需要跑完prepro.py)LDA主题模型分析: LDA.py(需要跑完senti_pre.py)tree.py(需要跑完senti_analy.py)
情感分析(词典): senti_analy.py(需要跑完senti_pre.py)3Dbar.py(需要跑完senti_analy.py)pie.py(需要跑完senti_analy.py)
情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py(需要跑完senti_pre.py)
情感分析:
原文地址:https://blog.csdn.net/maoxiao1229/article/details/137843603
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!