L3 逻辑回归

🕗 发布于 2024-09-20 20:03 逻辑回归算法 机器学习

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

在周将使用 LogisticRegression 函数对经典的鸢尾花 (Iris) 数据集进行分类。将详细介绍逻辑回归的数学原理。

1. 逻辑回归的数学原理

逻辑回归是一种线性分类算法，常用于二分类问题。它的核心思想是通过将线性回归模型的输出通过一个 Sigmoid 函数映射到一个 0 到 1 之间的概率值，从而进行分类。

1.1 线性模型

逻辑回归的线性模型与线性回归相似，其形式为：

$\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n$

其中：

( z ) 是线性组合的输出，
( $x_1$ , $x_2$ , $\dots$ , $x_n$ ) 是特征变量，
( $\beta_0$ ) 是截距（常数项），
( $\beta_1, \dots, \beta_n$ ) 是特征变量的系数。

1.2 Sigmoid 函数

线性模型输出 ( z ) 之后，通过 Sigmoid 函数将其转化为概率：

$\hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}}$

Sigmoid 函数的输出值是一个概率，范围在 0 到 1 之间。当概率 ( $\hat{y} \geq 0.5$ ) 时，我们预测为正类（1），否则预测为负类（0）。

1.3 损失函数（对数损失）

为了找到最优的系数 ( $\beta$ )，我们需要最小化损失函数。逻辑回归的损失函数为对数损失函数（log loss）：

$L(\beta) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \right]$

其中：

( m ) 是样本数，
( $y^{(i)}$ ) 是第 ( $i$ ) 个样本的真实标签，
( $\hat{y}^{(i)}$ ) 是第 ( $i$ ) 个样本的预测概率。

通过梯度下降法或其他优化算法，逻辑回归模型可以根据最小化该损失函数来找到最优的参数 ( $\beta$ )。

2. `LogisticRegression` 函数介绍

LogisticRegression(
    penalty='l2',                 # 正则化类型，'l1', 'l2', 'elasticnet', 'none'
    dual=False,                   # 双对偶或原始方法
    tol=0.0001,                   # 优化过程的容差
    C=1.0,                        # 正则化强度的倒数，较小的值表示较强的正则化
    fit_intercept=True,           # 是否拟合截距项
    intercept_scaling=1,          # 拦截（截距）的缩放系数
    class_weight=None,            # 给定类别的权重，'balanced' 或 dict
    random_state=None,            # 随机数种子
    solver='lbfgs',               # 优化算法，{'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}
    max_iter=100,                 # 最大迭代次数
    multi_class='auto',           # 处理多类分类问题的方法，{'auto', 'ovr', 'multinomial'}
    verbose=0,                    # 是否在训练过程中输出日志信息
    warm_start=False,             # 是否使用上次调用的解作为初始解
    n_jobs=None,                  # 并行处理的作业数量
    l1_ratio=None                 # 混合正则化的弹性网络的l1比例
)

3. 鸢尾花数据分类

鸢尾花数据集是一个经典的多分类数据集，包含 150 个样本，分为 3 类（Setosa、Versicolor、Virginica），每类 50 个样本。每个样本有 4 个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。

以下是完整的代码实现：

import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.linear_model import LogisticRegression

# 1. 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 目标变量

# 2. 特征标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 划分训练集和测试集（80% 训练集，20% 测试集）
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 4. 逻辑回归模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 5. 模型预测
y_pred = model.predict(X_test)

# 6. 模型评估
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的准确率: {accuracy:.2f}")

# 打印分类报告
print("分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

# 打印混淆矩阵
print("混淆矩阵:")
print(confusion_matrix(y_test, y_pred))

在这里插入图片描述

4. 总结

本周学习了逻辑回归的数学原理，并通过鸢尾花数据集展示了如何使用 LogisticRegression 进行多分类任务。为后续学习打下基础。

原文地址：https://blog.csdn.net/tjl521314_21/article/details/142391502

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：漫步者头戴式耳机怎么样？漫步者、西圣、索尼三大耳机测评对比
下一篇：SpringCloud 基于 web 的只会养老平台

Java项目实战II基于Java+Spring Boot+MySQL的共享汽车管理系统(源码+数据库+文档)
在共享经济蓬勃发展的背景下，共享汽车作为一种新型的出行方式，正逐渐改变着人们的出行习惯。然而，随着共享汽车市场规模的不断扩大，车辆管理、用户服务、数据安全等问题日益凸显，传统的管理方式已难以满足当前的
阅读更多2024-11-19
【青牛科技】汽车收音机调频中频放大器——D1145
无线麦克风对讲机。
阅读更多2024-11-19
鸿蒙中位置权限和相机权限
State permissionsMessage: string | Resource = "\"获取当前位置\"需获取定位权限才能正常使用"this.perm
阅读更多2024-11-19
UE5 第一人称射击项目学习（二）
然后，把子弹的向前向量提升（在ue5的标准向量是以1cm为单位，所以虽然子弹跟随视角发射，但是速度太慢），从生成Actor的return Value处拉一根线，获取向前向量乘1000.运行程序，按
阅读更多2024-11-19
【软考】系统架构设计师-数据库设计基础
数据库设计基础知识
阅读更多2024-11-19
MongoDB 监控：确保数据库性能和可靠性
MongoDB 是一个流行的开源 NoSQL 数据库，以其灵活的文档模型和强大的查询语言而闻名。然而，为了确保 MongoDB 的性能和可靠性，监控是至关重要的。本文将讨论 MongoDB 监控的重要
阅读更多2024-11-19
电脑插入U盘，电脑显示新增了，但是双击却显示请将磁盘插入
`CHKDSK 无法供 RAW 驱动器使用` 表明内存卡的文件系统已损坏或丢失，当前处于 **RAW 文件系统** 状态。RAW 表示文件系统无法识别，可能由以下原因导致：
阅读更多2024-11-19
【论文阅读】InstructIR: High-Quality Image Restoration Following Human Instructions
图像恢复是一个基本问题，旨在从退化的图像中恢复出高质量的清晰图像。All-In-One 图像恢复模型能够利用退化特定的信息作为提示，引导恢复模型有效地恢复多种类型和不同程度的退化图像。本研究提出了首个
阅读更多2024-11-19
【Next】字体修改
next/font 包括任何字体文件的内置自动自托管。首先从 next/font/google 导入您想要使用的字体作为函数。（可以按住 ctrl 点进去 google 查看所有字体）然后导入该字体函
阅读更多2024-11-19
Springboot基于GIS的旅游信息管理系统
项目编号：springbootA100基于GIS的旅游信息管理系统是在旅游业迅速发展、旅游需求日益多样化的背景下应运而生的一套综合性信息管理平台，它通过整合旅游资源、提供实时信息、优化服务流程，旨在为
阅读更多2024-11-19