python语义分析实战--基于LDA主题建模、TextBlob情感分析的评论数据分析及可视化(附代码)
博主碎碎念:时光如白驹过隙,一转眼我已经接触python将近4年了,在过去的4年里,我有做过图像识别模型训练和图像数据处理,也做过文本数据的挖掘,这些项目实战经验,让我对python的应用性价值有了很多不一样的看法,但是最后,仍旧觉得python最有意思的地方还是在于对海量数据的批量处理,无论是证券行业的量化交易,还是电商行业的用户数据分析,python都起到了很大的作用,对于海量数据的处理和可视化帮助企业和个人更加直观的挖掘到了数据的价值,更好的做出决策。所以,尽管现在对于数据的处理方式已经层出不穷,我对于python的热情仍旧不减,停更了很久还是决定以后要继续记录自己对于python的学习和实战经历,那么就让我们开始新的旅程吧!
目录
1.LDA(Latent Dirichlet Allocation)主题建模方法
一、前言
在如今信息爆炸的时代,评论数据是企业和研究者获取用户反馈、了解市场动态的重要资源。然而,面对海量的文本数据,如何有效地提取有价值的信息是一大挑战。这篇文章将从实践中带您学习如何使用两种强大的文本分析技术——LDA主题建模和TextBlob情感分析,对评论数据进行深入挖掘与分析。
二、模型介绍
1.LDA(Latent Dirichlet Allocation)主题建模方法
LDA(Latent Dirichlet Allocation)是一种广泛使用的主题模型(Topic Modeling)方法,主要用于从大量文档中发现潜在的主题结构。它属于无监督学习的范畴,能够帮助我们在没有标签信息的情况下自动地识别文档集合中的主题和模式。LDA是基于概率模型的,它假设每个文档都是由多个主题组成的,每个主题又由若干个单词构成。
LDA模型的核心思想:
(1)每个文档都可以看作是若干个主题的混合体(每个主题贡献一个概率)。
(2)每个主题又由若干个单词按照一定的概率分布组成。
(3)我们通过分析文档集合中单词的出现频率,推测出每个文档背后的主题分布以及每个主题中包含的关键词。
2.TextBlob库
TextBlob是一个简单易用的Python库,用于处理文本数据。它为自然语言处理(NLP)任务提供了许多基本的功能,包括情感分析、词性标注、翻译、拼写检查等。其中,情感分析是TextBlob的一个常用功能,它可以帮助我们快速地了解文本的情感倾向(正面、负面或中性),以及情感的强度。
TextBlob的情感分析基于情感极性(Polarity)和主观性(Subjectivity)两个重要指标
(1)极性(Polarity):表示文本的情感倾向,值的范围是[-1, 1],其中:
1表示完全的正面情感。
-1表示完全的负面情感。
0表示中性情感,或者没有明显的情感倾向。
(2)主观性(Subjectivity):表示文本的主观性程度,值的范围是[0, 1],其中:
0表示完全客观的文本。
1表示完全主观的文本(即表达了个人观点或情感)。
通过这两个指标,TextBlob可以帮助我们识别文本的情感方向和情感强度。
三、数据预处理
1.使用NLTK进行停用词处理
import pandas as pd
import nltk
from nltk.corpus import stopwords
# 下载 NLTK 停用词
nltk.download('stopwords')
# 1. 加载英文评论数据
# 读取产品评论Excel 文件
file_path = 'yourfile' # 文件相对路径
df = pd.read_excel(file_path)
# 2. 清洗评论文本:去除标点符号、停用词和数字
def clean_text(text):
text = text.lower() # 转小写
text = text.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号
stop_words = set(stopwords.words('english')) # 获取英语停用词
words = text.split()
cleaned_words = [word for word in words if word not in stop_words]
return ' '.join(cleaned_words)
# 对评论文本进行清洗
print(pd.Series(df['body'].astype(str)))
df['cleaned_review'] = pd.Series(df['body'].astype(str)).apply(clean_text)
2.自定义停用词
import pandas as pd
import nltk
from nltk.corpus import stopwords
# 下载 NLTK 停用词
nltk.download('stopwords')
# 1. 加载英文评论数据
# 读取产品评论Excel 文件
file_path = 'yourfile' # 文件相对路径
df = pd.read_excel(file_path)
# 自定义停用词
diy_stopword = ['need','bag','use','sling']
# 2. 清洗评论文本:去除标点符号、停用词和数字
def clean_text(text):
text = text.lower() # 转小写
text = text.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号
stop_words = set(stopwords.words('english')) # 获取英语停用词
words = text.split()
cleaned_words = [word for word in words if word not in stop_words and word not in diy_stopword]
return ' '.join(cleaned_words)
# 对评论文本进行清洗
print(pd.Series(df['body'].astype(str)))
df['cleaned_review'] = pd.Series(df['body'].astype(str)).apply(clean_text)
四、LDA主题建模(附完整代码)
LDA模型能够自动识别评论中的潜在主题。我们假设评论中有 3 个主要的场景(n_topics = 3),然后查看每个主题中最常见的词。并提取主题中的关键词,绘制柱状图可视化频率最高的前20个关键词。
完整代码:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import nltk
from nltk.corpus import stopwords
import string
# 下载 NLTK 停用词
nltk.download('stopwords')
# 1. 加载英文评论数据
# 读取产品评论Excel 文件
file_path = 'yourfile' # 文件相对路径
df = pd.read_excel(file_path)
# 自定义停用词
diy_stopword = ['love', 'bag','great','one','perfect','like','beautiful','need','nice','use','really','received','good','bought','little']
# 2. 清洗评论文本:去除标点符号、停用词和数字
def clean_text(text):
text = text.lower() # 转小写
text = text.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号
stop_words = set(stopwords.words('english')) # 获取英语停用词
words = text.split()
cleaned_words = [word for word in words if word not in stop_words and word not in diy_stopword]
return ' '.join(cleaned_words)
# 对评论文本进行清洗
print(pd.Series(df['body'].astype(str)))
df['cleaned_review'] = pd.Series(df['body'].astype(str)).apply(clean_text)
# 3. 使用 TF-IDF 提取关键词
tfidf_vectorizer = TfidfVectorizer(max_features=20) # 提取最重要的20个词
X_tfidf = tfidf_vectorizer.fit_transform(df['cleaned_review'])
# 获取 TF-IDF 得分的词
tfidf_feature_names = tfidf_vectorizer.get_feature_names_out()
# 显示前十个关键词
print("Top 20 Keywords by TF-IDF:")
for feature, score in zip(tfidf_feature_names, X_tfidf.sum(axis=0).A1):
print(f"{feature}: {score}")
# 4. 使用 LDA(主题建模)自动提取评论中的场景
n_topics = 3 # 假设我们希望提取三个场景
lda = LatentDirichletAllocation(n_components=n_topics, random_state=42)
lda.fit(X_tfidf)
# 5. 查看每个主题中的关键词
print("\nTop words per topic from LDA:")
n_top_words = 20
for topic_idx, topic in enumerate(lda.components_):
print(f"Topic #{topic_idx}:")
print(" ".join([tfidf_feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))
# 6. 绘制出现频次前十的词汇柱状图
count_vectorizer = CountVectorizer(stop_words='english', max_features=20) # 提取20个最常见的词
X_count = count_vectorizer.fit_transform(df['cleaned_review'])
count_words = count_vectorizer.get_feature_names_out()
word_freq = X_count.sum(axis=0).A1
# 将关键词和频率组成字典
data1 = {'Keyword': count_words, 'Frequency': word_freq}
# 创建 DataFrame
df_key = pd.DataFrame(data1)
# 设置关键词为索引
df_key.set_index('Keyword', inplace=True)
# 按频率降序排序
df_sorted = df_key.sort_values(by='Frequency', ascending=False)
# 显示关键词结果
print(df_sorted)
print(df_sorted.index)
# 创建柱状图
plt.figure(figsize=(10, 6))
plt.bar(df_sorted.index,df_sorted['Frequency'], color='skyblue')
plt.xlabel('Keywords')
plt.ylabel('Frequency')
plt.title('Top 20 Most Frequent Words in Reviews')
plt.xticks(rotation=45)
plt.show()
运行结果:
(1)提取的三个主题中的关键词:
(2)绘制柱状图可视化频率最高的前20个关键词
五、TextBlob语义情感分析
(1)使用 TextBlob 进行情感分析,TextBlob.sentiment.polarity 返回评论的情感极性值。基于该值判断评论是正面、负面还是中性:
正面:情感值 > 0。
负面:情感值 < 0。
中性:情感值 = 0。
(2)关键词提取:定义与场景相关的关键词列表(如:'battery', 'performance', 'screen' 等),并使用 CountVectorizer 提取评论中这些关键词的出现频率。
(3)柱状图可视化:
第一幅图:展示与场景相关的关键词出现频次的柱状图。
第二幅图:展示评论的情感分析结果(正面、负面、中性)。
完整代码:
import pandas as pd
import matplotlib.pyplot as plt
from textblob import TextBlob
from sklearn.feature_extraction.text import CountVectorizer
import nltk
from nltk.corpus import stopwords
import string
# 下载 NLTK 停用词
nltk.download('stopwords')
# 1. 加载英文评论数据
# 读取产品评论Excel 文件
file_path = 'yourfile' # 文件相对路径
df = pd.read_excel(file_path)
# 2. 清洗评论文本:去除标点符号、停用词和数字
def clean_text(text):
text = text.lower() # 转小写
text = text.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号
stop_words = set(stopwords.words('english')) # 获取英语停用词
words = text.split()
cleaned_words = [word for word in words if word not in stop_words]
return ' '.join(cleaned_words)
# 对评论文本进行清洗
print(pd.Series(df['body'].astype(str)))
df['cleaned_review'] = pd.Series(df['body'].astype(str)).apply(clean_text)
# 3. 使用 TextBlob 进行情感分析(正面/负面/中性)
def get_sentiment(text):
blob = TextBlob(text)
sentiment = blob.sentiment.polarity
if sentiment > 0:
return 'positive'
elif sentiment < 0:
return 'negative'
else:
return 'neutral'
df['sentiment'] = df['cleaned_review'].apply(get_sentiment)
# 4. 提取与场景相关的关键词并统计它们的出现频率
scene_keywords = ['international','travel','daily','everyday']
vectorizer = CountVectorizer(vocabulary=scene_keywords)
X = vectorizer.fit_transform(df['cleaned_review'])
keyword_freq = X.toarray().sum(axis=0)
# 创建一个 DataFrame 来展示关键词和它们的频率
keyword_freq_df = pd.DataFrame({'keyword': vectorizer.get_feature_names_out(), 'frequency': keyword_freq})
# 5. 按频率降序排序,获取前十个关键词
top_keywords_df = keyword_freq_df.sort_values(by='frequency', ascending=False).head(10)
print(top_keywords_df)
# 6. 绘制柱状图
plt.figure(figsize=(10, 6))
plt.bar(top_keywords_df['keyword'], top_keywords_df['frequency'], color='skyblue')
plt.xlabel('Keywords')
plt.ylabel('Frequency')
plt.title('Scene keyword')
plt.xticks(rotation=45)
plt.show()
# 7. 查看情感分析结果
sentiment_counts = df['sentiment'].value_counts()
print("\nSentiment Analysis Results:")
print(sentiment_counts)
# 绘制情感分析结果的柱状图
sentiment_counts.plot(kind='bar', color=['lightgreen', 'salmon', 'gray'], figsize=(8, 6))
plt.title("Sentiment Analysis of Reviews")
plt.xlabel("Sentiment")
plt.ylabel("Count")
plt.xticks(rotation=0)
plt.show()
运行结果:
(1)输出与场景相关的关键词出现频次
(2)可视化结果(柱状图)
a.与场景相关的关键词出现频次柱状图
b.评论的情感分析结果柱状图(正面、负面、中性)
六、总结
感谢你看完了这篇文章,通过这次实战,你已经掌握了一些评论数据分析的方法,并能够应用这些技能解决实际问题,比如从用户评论中提取热点话题、评估用户满意度等等。这些技术将为你成为数据分析师、产品经理打下一定的实战基础,这些实战项目同样也适合任何对自然语言处理和文本分析感兴趣的同学用来练手,或许对于数学建模比赛的方法选取也会有一些启发哦。
路漫漫其修远兮,一起加油!
原文地址:https://blog.csdn.net/weixin_52135595/article/details/145035453
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!