【AI知识】逻辑回归介绍+ 做二分类任务的实例（代码&可视化）

🕗 发布于 2024-12-13 11:58 人工智能 学习分类有监督学习逻辑回归

1. 分类的基本概念

在机器学习的有监督学习中，分类一种常见任务，它的目标是将输入数据分类到预定的类别中。具体来说：
在这里插入图片描述

分类任务的常见应用：

垃圾邮件分类：判断一封电子邮件是否是垃圾邮件。
医学诊断：根据病人的症状、检查结果等特征预测病人的疾病类型（如癌症、糖尿病等）。

分类任务的类型：

二分类（Binary Classification）： 在二分类问题中，模型需要将输入数据分为两个类别，输入属于两个类别中的一个。如判断一封邮件是垃圾邮件还是非垃圾邮件。
多分类（Multiclass Classification）： 在多分类问题中，模型需要将输入数据分为超过两个类别，输入属于多个类别中的一个。如手写数字识别（数字 0 到 9），根据图像内容将其分类为一个数字。
多标签分类（Multilabel Classification）： 多标签分类任务是指每个样本可以同时属于多个类别，也就是一个样本可以同时拥有多个标签。如一部电影可以同时属于“动作”和“科幻”两个类别。

分类模型的常用算法： 逻辑回归（Logistic Regression）、支持向量机（SVM, Support Vector Machine）、 K-近邻算法（KNN, K-Nearest Neighbors）、决策树（Decision Trees）、随机森林（Random Forest）等。

回归和分类的区别：

回归（Regression）： 回归任务的目标是预测一个连续的数值输出，模型输出的是一个实数值。回归常用于预测数量、价格、温度等连续型变量。
分类（Classification）： 分类任务的目标是将输入样本分配到有限的类别中，它的输出是离散的标签，通常是类别的编号或名称。分类问题通常用于处理类别标签的任务。

2. 逻辑回归（Logistic Regression）

逻辑回归（Logistic Regression）是一种广泛使用的线性分类模型，尽管它的名字中带有“回归”二字，但它其实是一种用于分类任务的算法，特别适用于二分类问题，也可以通过扩展来处理多分类问题。逻辑回归通过使用Sigmoid函数将线性回归的输出转换为概率值，这个概率值表示一个样本属于某个类别的概率，从而进行分类预测。

在这里插入图片描述
Sigmoid函数将线性回归的结果 𝑧 转换为一个介于 0 和 1 之间的概率值 $\hat{y}$ ，通常通过设置一个阈值（比如 0.5）来进行分类判断。如果 $\hat{y}$ >=0.5 ，则预测为类别 1，否则类别为0。

逻辑回归的损失函数： 与线性回归的均方误差（MSE）不同，做二分类的逻辑回归使用的是对数损失函数（Log Loss），用于度量模型输出概率与真实标签之间的差异。
逻辑回归模型训练：逻辑回归通过最小化损失函数来训练模型，常用的方法是梯度下降。训练过程中，算法会迭代地调整模型参数，以最小化损失函数，从而使得模型的预测与真实标签更接近。

3. 逻辑回归做二分类任务的实例（代码+可视化）

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 1. 生成一个二维特征的二分类数据集
X, y = make_classification(n_samples=400, n_features=2, n_informative=2, n_redundant=0,
                           n_clusters_per_class=1, random_state=42)

# 2. 数据标准化（可选，但常见做法）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# 4. 数据可视化：展示训练数据的分布
plt.figure(figsize=(8, 6))
plt.scatter(X_train[y_train == 0][:, 0], X_train[y_train == 0][:, 1], color='blue', label='Class 0', alpha=0.7)
plt.scatter(X_train[y_train == 1][:, 0], X_train[y_train == 1][:, 1], color='red', label='Class 1', alpha=0.7)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Training Data - Class Distribution')
plt.legend()
plt.show()

在这里插入图片描述

# 5. 创建逻辑回归模型并训练
model = LogisticRegression()
model.fit(X_train, y_train)

# 6. 绘制决策边界函数
def plot_decision_boundary(X, y, model):
    # 生成网格点
    h = 0.01
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    # 使用模型进行预测
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    # 绘制决策边界
    plt.contourf(xx, yy, Z, alpha=0.75, cmap='bwr')
    plt.colorbar()

    # 绘制数据点
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap='bwr', s=30, edgecolors='k')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title('Logistic Regression Decision Boundary')

# 7. 可视化训练集的决策边界
plt.figure(figsize=(8, 6))
plot_decision_boundary(X_train, y_train, model)
plt.show()

在这里插入图片描述

# 8. 在测试集上评估模型
test_accuracy = model.score(X_test, y_test)
print(f"Test Accuracy: {test_accuracy:.2f}")
#Test Accuracy: 0.88

解释一下决策边界： 决策边界指的是在特征空间中将不同类别的样本分开的“边界”或“界限”。它是一个假设函数的边界，能够将数据点分到不同的类别。

假设有一个二维数据集，其中每个数据点由两个特征（x 和 y）构成，类别有两种（比如“0”和“1”）。那么，决策边界就是在二维平面上，一个将类别 0 和类别 1 分开的曲线或直线，如上图。

最后：分类任务还有很多其他算法，每个都分开写博客说明，这里只介绍逻辑回归。

原文地址：https://blog.csdn.net/qq_45791939/article/details/144421870

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【跨库查询、多库查询】.NET开源 ORM 框架 SqlSugar 系列
下一篇：【实验】【H3CNE邓方鸣】交换机端口安全实验+2024.12.11

QT数据库：QSqlQuery使用
QSqlQuery的使用，以SQLite为例子
阅读更多2024-12-13
QT数据库SQLite：QSqlRelationalTableModel 类
记录QSqlRelationalTableModel的使用和关系数据库使用
阅读更多2024-12-13
016 在路由器上配置 DHCP
将路由器的端口地址配置好，左边的网络地址是 192.168.1.0右边的网络地址是 192.168.2.0。
阅读更多2024-12-13
如何画一个网格
做一个类似这种，网格中多个相邻的单元格可以合并成一个大的矩形。
阅读更多2024-12-13
【IC面试问题：UCIE PHY LSM && AXI && Cache】
IC AXI UCIE_PHY_LSM Cache
阅读更多2024-12-13
linux网络编程 | c | select实现多路IO转接服务器
基于该视频完成通过响应式–多路IO转接实现要求：能看懂看，看不懂也没啥大事，现在基本都用epoll代替了大家看视频思路吧，代码就是从讲义里面copy了一份，因为不是很重要的东西。
阅读更多2024-12-13
服务器一般装什么系统？
像Ubuntu、CentOS和Debian等不同的Linux发行版，都提供了不同的功能和支持，用户可以根据自己的需求选择合适的版本。对于企业用户来说，选择一个有良好技术支持的操作系统，可以在遇到问题时
阅读更多2024-12-13
关于Git分支合并，跨仓库合并方式
代码合并
阅读更多2024-12-13
网络安全协议之比较(SSH、PKI、SET、SSL)
密码保护数据库的内容。为解决Internet的安全问题，世界各国对其进行了多年的研究，初步形成了一套完整的Internet安全解决方案，即目前被广泛采用的PKI体系结构，PKI体系结构采用证书管理公
阅读更多2024-12-13
《CUDA：人工智能的强大引擎》
CUDA 作为人工智能的强大引擎，在过去取得了显著成就，未来也将继续发挥重要作用。随着技术的不断发展，CUDA 将面临更多挑战和机遇，但其在人工智能领域的地位不可忽视。
阅读更多2024-12-13

【AI知识】逻辑回归介绍+ 做二分类任务的实例（代码&可视化）

相关文章