自学内容网 自学内容网

微博聚类文本分析和可视化

本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。

数据预处理

  1. prepro.py、pre_graph.py、senti_pre.py

    为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件

    PS:

    prepro.py 运行时根据需要修改123、143、166行三处代码

    pre_graph.py 运行时根据需要修改127、140行两处代码

    senti_pre.py 运行时根据需要修改第119行代码

  2. zh_wiki.py、langconv.py

    这两个py文件是用于繁体转简体的无需修改

    数据分析和可视化
    词云:wc.py(需要跑完prepro.py)

    根据需要修改3、19、26行代码

    热度地图: map.py(需要跑完prepro.py)

    根据需要修改第8行代码


    转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)


    微博评论关系图: graph.py(需要跑完pre_graph.py)

    (参考)


    文本聚类: cluster_tfidf.py 和 cluster_w2v.py(需要跑完prepro.py)

    LDA主题模型分析: LDA.py(需要跑完senti_pre.py)tree.py(需要跑完senti_analy.py)


    情感分析(词典): senti_analy.py(需要跑完senti_pre.py)3Dbar.py(需要跑完senti_analy.py)pie.py(需要跑完senti_analy.py)


    情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py(需要跑完senti_pre.py)

情感分析:


原文地址:https://blog.csdn.net/maoxiao1229/article/details/137843603

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!