朴素贝叶斯分类器入门教程：使用Python进行文本分类

🕗 发布于 2024-11-05 02:32 python 开发语言 朴素贝叶斯

朴素贝叶斯分类器入门教程：使用Python进行文本分类

在机器学习中，朴素贝叶斯算法（Naive Bayes） 是一种基于「贝叶斯定理」的简单但有效的分类算法，尤其在文本分类中非常常用。本文将向你展示如何使用Python和朴素贝叶斯分类器来处理分类问题。

什么是朴素贝叶斯？

朴素贝叶斯算法基于两个核心概念：

贝叶斯定理：用来描述事件发生的条件概率。例如，如果你看到一个人总是做好事，你可能认为他是个好人。
特征条件独立假设：假设所有特征在给定类别的条件下都是独立的，以简化计算。

接下来，我们将使用 MultinomialNB 朴素贝叶斯分类器。它适用于离散特征（如单词计数），并常用于文本分类。

步骤1：导入必要的库

确保你已安装 scikit-learn 库。

pip install scikit-learn

导入库

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

步骤2：准备数据集

为了简单起见，我们将使用一些示例数据来演示如何训练和测试一个分类器。

# 示例数据：一些句子和对应的类别
data = [
    ("Python编程入门指南", "技术"),
    ("如何安装Python？", "技术"),
    ("电影推荐：年度最佳电影", "娱乐"),
    ("新推出的电视剧有哪些？", "娱乐"),
    ("健康生活的五个建议", "健康"),
    ("如何预防流感？", "健康"),
    ("机器学习和人工智能的区别", "技术"),
    ("最近上映的电影有哪些？", "娱乐"),
]

# 将文本和标签分离
texts, labels = zip(*data)

步骤3：文本特征提取

由于机器学习模型只能处理数值特征，我们使用词频向量化（Count Vectorization）将文本转换成特征向量。

# 使用CountVectorizer将文本转换为特征向量
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)  # 将文本转换为向量

步骤4：划分数据集

将数据集划分为训练集和测试集，以便评估模型的性能。

# 划分数据集：80%用于训练，20%用于测试
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

步骤5：训练朴素贝叶斯分类器

创建 MultinomialNB 分类器，并使用训练集进行训练。

# 初始化并训练朴素贝叶斯分类器
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

步骤6：模型评估

使用测试集评估模型性能，打印准确率和分类报告。

# 使用测试集进行预测
y_pred = classifier.predict(X_test)

# 打印准确率和分类报告
print("准确率:", accuracy_score(y_test, y_pred))
print("分类报告:\n", classification_report(y_test, y_pred))

步骤7：实现分类函数

创建一个简单的函数，让用户输入问题，并输出预测的类别。

def classify_text(text):
    text_vector = vectorizer.transform([text])  # 将输入文本转换为向量
    prediction = classifier.predict(text_vector)  # 预测类别
    return prediction[0]

# 测试分类函数
user_input = "如何保持健康？"
predicted_category = classify_text(user_input)
print("预测类别:", predicted_category)

完整代码

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 数据
data = [
    ("Python编程入门指南", "技术"),
    ("如何安装Python？", "技术"),
    ("电影推荐：年度最佳电影", "娱乐"),
    ("新推出的电视剧有哪些？", "娱乐"),
    ("健康生活的五个建议", "健康"),
    ("如何预防流感？", "健康"),
    ("机器学习和人工智能的区别", "技术"),
    ("最近上映的电影有哪些？", "娱乐"),
]
texts, labels = zip(*data)

# 特征提取
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# 模型训练
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# 模型评估
y_pred = classifier.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))
print("分类报告:\n", classification_report(y_test, y_pred))

# 分类函数
def classify_text(text):
    text_vector = vectorizer.transform([text])
    prediction = classifier.predict(text_vector)
    return prediction[0]

# 测试分类函数
user_input = "如何保持健康？"
predicted_category = classify_text(user_input)
print("预测类别:", predicted_category)

常见问题

负值输入错误：MultinomialNB 只接受非负值的输入（如词频计数），如果使用其他处理方法导致出现负值，可能会报错。
数据预处理：在文本分类任务中，通常需要对数据进行更复杂的清洗和预处理，例如去除停用词和进行分词。

通过以上步骤，你可以轻松实现一个简单的朴素贝叶斯文本分类器。希望这篇教程能帮助你快速上手机器学习分类器！

原文地址：https://blog.csdn.net/engchina/article/details/143472753

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

学生公寓管理系统
由于某些特殊原因，需要对学生当前入住的床位进行修改时，使用此功能。新生开学后，宿管管理可以先根据学生所在系查询该专业预定的宿舍和具体的床位入住状态信息，为该学生分配一个空闲状态的床位，并修改当前床位状
阅读更多2024-11-15
Windows上安装RabbitMQ 4.0.3教程
通过上述步骤，你应该已经成功在Windows上安装了RabbitMQ 4.0.3，并启用了管理插件。现在，你可以开始使用RabbitMQ来构建你的分布式系统了。希望这篇教程对你有所帮助，如果有任何问题
阅读更多2024-11-15
【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-成绩排序
C++L13 成绩排序(50 分)
阅读更多2024-11-15
Web入门
HTTP（HyperText Transfer Protocol，超文本传输协议）是一种应用层协议。主要用于在Web浏览器和服务器之间传输数据。基于TCP协议：面向连接，确保了数据传输的可靠性和顺序。
阅读更多2024-11-15
Android 最新的AndroidStudio引入依赖失败如何解决？如:Failed to resolve:xxxx
在引入依赖时报错：Failed to resolve: xxx.xxxx:1.1.0。
阅读更多2024-11-15
力扣113：路径总和II
力扣113：路径总和II。C语言
阅读更多2024-11-15
【springboot使用sqlite数据库】Java后台同时使用mysql、sqlite
根据业务的需要，老版程序使用的数据库是sqlite，版本升级成前后台分离模式，因此需要兼容mysql与sqlite数据库同时使用。
阅读更多2024-11-15
力扣.15 三数之和 three-sum
这道题作为 leetcode 的第 15 道题，看起来似曾相识。大概思路可以有下面几种：暴力解法数组排序+二分Hash 优化双指针。
阅读更多2024-11-15
力扣第 53 题：最大子数组和
题目给定一个整数数组nums，目标是找到和最大的连续子数组（最少包含一个元素），并返回其和。例如，在数组中，和最大的子数组为，其和为6。
阅读更多2024-11-15
linux-缓冲区
调用系统调用接口是需要时间成本的，如果使用缓冲区，存储的字符串到一定长度再调用系统调用，能够有效减少调用系统调用的次数。这个缓冲区是语言设置的，缓冲区满足条件就用系统调用接口write将缓冲区的内容刷
阅读更多2024-11-15

朴素贝叶斯分类器入门教程：使用Python进行文本分类

朴素贝叶斯分类器入门教程：使用Python进行文本分类

什么是朴素贝叶斯？

步骤1：导入必要的库

导入库

步骤2：准备数据集

步骤3：文本特征提取

步骤4：划分数据集

步骤5：训练朴素贝叶斯分类器

步骤6：模型评估

步骤7：实现分类函数

完整代码

常见问题

相关文章