自学内容网 自学内容网

python生成词云图

目录

1、安装分词工具jieba、词云图库wordcloud

2、分词

3、过滤停用词

4、生成词云图


1、安装分词工具jieba、词云图库wordcloud

编程环境是Anaconda,需要安装jieba、wordcloud。

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple

注意需要升级pillow包,如果pillow版本过低,运行时会报错。

pip install --upgrade pillow -i https://pypi.tuna.tsinghua.edu.cn/simple

2、分词

tokenizer函数,接受一段文本,利用jieba分词工具,对文本进行语法分析,将文本从段落的形式转为词语的数组。

import jieba
import re
import json

def tokenizer(text): 
    regex = re.compile(r'[^\u4e00-\u9fa5aA-Za-z0-9]')
    text = regex.sub(' ', text)
    return [word for word in jieba.cut

原文地址:https://blog.csdn.net/catontower/article/details/142318338

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!