2.系统学习-逻辑回归

🕗 发布于 2024-12-26 13:01 逻辑回归算法 机器学习

逻辑回归

前言
最大似然估计
逻辑回归
- 逻辑回归的似然函数与梯度
分类问题常用评价指标
项目案例
拓展内容
作业

前言

逻辑回归与线性回归均属于广义线性模型，区别在于线性回归用于解决回归问题，例如身高、销量等连续变量预测，逻辑回归用于二分类问题，例如判断是否为垃圾邮件，客户是否会点击广告。本章我们将首先了解最大似然估计，一步步推导出逻辑回归模型，最大似然估计广泛用于各类机器学习、深度学习，需要认真理解。接着会以实际案例，讲解非结构化数据处理的基础方法，分类问题建模流程。
学习目标：

List item
最大似然估计
逻辑回归模型
常用的分类问题评价指标
基础数据处理&分类问题建模
独自完成Kaggle Titanic竞赛首次提交，得分需要高于0.75链接: Titanic Machine Learning from Disaster

最大似然估计

概率

硬币有正反两面，如果硬币正反两面是均匀的，即每次抛掷后硬币为正的概率是0.5。使用这个硬币，很可能抛10次，有5次是正面。但是假如有人对硬币做了手脚，比如提前对硬币做了修改，硬币正面朝上概率大幅度提升了，你拿到硬币在尝试抛了10次，结果8次都是正面，如何估算下次硬币为正的概率呢？
$P(8正2反|\theta) = C_{10}^2(1 - \theta)^2 \cdot \theta^8$

import numpy as np 
print(f"theta = 0.6,  概率为{10*9/2 * np.power(10.6, 2) * np.power(0.6, 8):.3}") 
print(f"theta = 0.7,  概率为{10*9/2 * np.power(10.7, 2) * np.power(0.7, 8):.3}") 
print(f"theta = 0.8,  概率为{10*9/2 * np.power(10.8, 2) * np.power(0.8, 8):.3}")

theta = 0.6, 概率为0.121
theta = 0.7, 概率为0.233
theta = 0.8, 概率为0.302
可以看出，我们假设硬币朝正面参数为0.8的时候，出现8正2反情况的概率最大。我们有理由相信，0.8是候选的3个参数中的最接近真实概率的选项。

似然函数(likelihood function)

在上面的尝试中，0.8似乎是一个不错的猜测没，，但是否可能是0.81或者0.79呢，我们当然可以按照上面的方法再次计算概率，但是问题是我们无法遍历整个空间。因此我们需要定义一个函数来表示不同的参数下，表示多个独立事件θ (x1, x2,…,xn)发生的整体概率，这个函数我们叫它似然函数( likelihood function，通常用L表)，其中组合数部分是常数，我们可以直接忽略。 $L(x_1, x_2, \dots, x_n|\theta) = \prod_{i=1}^{n} p(x_i|\theta)$
似然函数通常用L表示,观察到抛硬币“8正2反”的事实，硬币参数取不同值时，似然函数表示为： $L(8正2反|\theta) = (1 - \theta)^2 \cdot \theta^8$

通过似然函数，我们只要能找到使得似然函数最大（多个独立事件发生的整体概率最大化），就可以完成对硬币参数的估计了，这就是最大似然估计：
$\hat{\theta} = \arg\max_{\theta} \prod_{i=1}^{n} p(x_i|\theta)$

最大似然估计

通常，由于似然函数为连乘，会造成小数位过高，无法有效表示，我们采用对数似然函数进行表示，把连乘转化为累加形式： $l(x_1, x_2, \dots, x_n|\theta) = \sum_{i=1}^{n} \log p(x_i|\theta)$
$\hat{\theta} = \arg\max_{\theta} \sum_{i=1}^{n} \log p(x_i|\theta)$

逻辑回归

逻辑回归是线性分类模型，说线性是因为其决策边界是线性的（平面或超平面），模型输出值域为(0,1)，通常我们将输出结果视为属于正样(y = 1)的概率。我们先来看一下逻辑回归模型的数学表示： $\sigma(w^T x) = \frac{1}{1 + \exp^{-w^T x}}$
在这里插入图片描述

import numpy as np 
import matplotlib.pyplot as plt 
%matplotlib inline 
def sigmoid(x): 
    return 1 / (1 + np.exp(-x)) 
data = np.arange(-10, 10, 0.1) 
plt.plot(data, sigmoid(data))

在这里插入图片描述

逻辑回归的似然函数与梯度

tips: 本段包含了不少公式计算，但公式本身的推导细节并不是最重要的，最重要的是通过引入似然函数，我们构造了逻辑回归的损失函数，且该损失函数可以利用梯度下降进行优化。
在这里插入图片描述
$p(y = y^i | x^i) = p(x^i)^{y^i}(1 - p(x^i))^{1-y^i}$

$\text{Likelihood} = \prod_i p(y = y^i | x^i) = \prod_i p(x^i)^{y^i} (1 - p(x^i))^{1-y^i}$
两边同时取对数，对数似然函数为：
$\text{loglikelihood} = \sum_i \left[y^i \log p(x^i) + (1 - y^i) \log (1 - p(x^i))\right]$
$\text{loglikelihood} = \sum_i \left[y^i \log \frac{p(x^i)}{1 - p(x^i)} + \log (1 - p(x^i))\right]$
那么这个对数似然函数就是我们需要优化的目标的，其值越大越好，越大说明模型预测概率和真实发生概率一致性越高。由于梯度下降法是验证最小化损失函数目标进行的，因此我们对对数似然函数乘以‑1。
$-\sum_i \left[y^i \log \frac{p(x^i)}{1 - p(x^i)} + \log (1 - p(x^i))\right]$
求关于参数的梯度,根据求导法则可得：
$\frac{\partial J}{\partial w} = \sum_i \left(p(x^i) - y^i\right) \cdot x^i$

有了梯度，根据上节课我们学习的梯度下降，就可以根据学习率α逐步迭代更新模型参数 $\alpha \cdot g$

分类问题常用评价指标

在二分类场景，模型所有的预测结果可以分为四类：

TP（True positive)，意思是模型预测为正样本（Positive），预测是正确的（True）
FP（False positive），意思是模型预测为正样本（Positive），预测是错误的（False）
TN（True negtive），意思是模型预测为负样本（negtive），预测是正确的（True）
FN（False negtive），意思是模型预测为负样本（negtive），预测是错误的（False）
基于以上四类预测结果，我们可以定义指标：

指标	公式	含义
准确率	$\text{Accuracy} = \frac{\#TP + \#TN}{\#ALL}$	所有预测结果中，预测正确的比例，值越大说明模型表现越好。
精准率	$\text{Precision} = \frac{\#TP}{\#TP + \#FP}$	所有预测的正样本中，正确的比例，值越大说明模型表现越好。
召回率	$\text{Recall} = \frac{\#TP}{\#TP + \#FN}$	所有正样本被正确预测的比例，值越大说明模型表现越好。

from sklearn.metrics import accuracy_score, precision_score, recall_score 
y_true = [1, 1, 0, 1, 0] 
y_pred = [0, 1, 0, 1, 0]
accuracy_score(y_true, y_pred)#0.8
precision_score(y_true, y_pred)#1.0
recall_score(y_true, y_pred)#0.6666666666666666

在一些极端场景下，准确率会失效，比如正负样本及其不均匀的情况：

y_true = [1, 1, 1, 1, 1, 0] 
y_pred = [1, 1, 1, 1, 1, 1] 
accuracy_score(y_true, y_pred) #0.8333333333333334

不过什么输入，模型都预测为正样本，导致模型本质上没有预测能力，但是依然能够取得很高的Accuracy。为了避免评估指标失效，我们可以同时查看precision 和 recall指标

precision_score(y_true, y_pred) #0.8333333333333334
recall_score(y_true, y_pred) # 1.0

也可以应用一个由recall,precision 一起组成的复合指标 f1‑score，该值越大，说明模型表现越好:
$\frac{2 \cdot \text{recall} \cdot \text{precision}}{\text{recall} + \text{precision}}$

 from sklearn.metrics import f1_score
 f1_score(y_true, y_pred) # 0.9090909090909091

p = precision_score(y_true, y_pred) 
r = recall_score(y_true, y_pred) 
 
2 * p * r / (p + r) #0.9090909090909091

项目案例

链接: Titanic Machine Learning from Disaster

# 导入所需的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re 
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, PolynomialFeatures, OneHotEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
%matplotlib inline 

# 读取 Titanic 数据集
train = pd.read_csv("./titanic/train.csv")  # 训练数据
test = pd.read_csv("./titanic/test.csv")    # 测试数据
submission = pd.read_csv("./titanic/gender_submission.csv")  # 示例提交文件

# 数据概览
print(train.head())  # 查看训练数据的前几行
print(test.head())   # 查看测试数据的前几行
print(train.isnull().sum())  # 检查训练数据的缺失值

# 填充缺失值
# 用中位数填充缺失的年龄数据
train['Age'] = train['Age'].fillna(train['Age'].median())
test['Age'] = test['Age'].fillna(test['Age'].median())

# 用众数填充缺失的登船港口数据
train['Embarked'] = train['Embarked'].fillna('S')
test['Embarked'] = test['Embarked'].fillna('S')

# 用票价的中位数填充缺失的票价数据
test['Fare'] = test['Fare'].fillna(test['Fare'].median())

# 数据预处理
# 将性别和登船港口转换为数值类型
train = pd.get_dummies(train, columns=['Sex', 'Embarked'], drop_first=True)
test = pd.get_dummies(test, columns=['Sex', 'Embarked'], drop_first=True)

# 删除不需要的列
train.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
test.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

# 提取目标变量和特征
train_target = train['Survived']  # 目标变量
train_features = train.drop(['Survived', 'PassengerId'], axis=1)  # 特征
test_features = test.drop(['PassengerId'], axis=1)  # 测试集特征

# 标准化特征
scaler = StandardScaler()
train_features = scaler.fit_transform(train_features)
test_features = scaler.transform(test_features)

# 逻辑回归模型
model = LogisticRegression()  # 创建逻辑回归模型
model.fit(train_features, train_target)  # 训练模型

# 模型评估
predictions = model.predict(train_features)  # 在训练集上预测
print("Accuracy:", accuracy_score(train_target, predictions))  # 准确率
print("Precision:", precision_score(train_target, predictions))  # 精准率
print("Recall:", recall_score(train_target, predictions))  # 召回率
print("F1 Score:", f1_score(train_target, predictions))  # F1 分数

# 在测试集上进行预测
test_predictions = model.predict(test_features)

# 生成提交文件
submission['Survived'] = test_predictions
submission.to_csv("./submission.csv", index=False)  # 保存结果到 CSV 文件

print("结果已保存至 submission.csv")

拓展内容

需要注意的是，逻辑回归虽然存在sigmoid函数将输出结果映射到0～1区间，但本质依然是一个线性模型，因为模型的分类决策边界是一个平面，而不是曲面或其他，以下图为例，中间的蓝色直线就是我们的分类（超）平面，位于平面上方的点为正样本，下方的点为负样本，这个分类（超）平面可以用一个线性方程表示出来。
在这里插入图片描述

作业

分类问题中，在正负样本不均衡的情况下，我们如何评价模型？
在Titanic Machine Learning from Disaster比赛提交逻辑回归建模预测结果，需要得分高于0.75

原文地址：https://blog.csdn.net/m0_63715738/article/details/144722781

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：debian 编译openwrt
下一篇：快速汇总Word表格

青少年编程与数学 02-005 移动Web编程基础 05课题、rem布局与媒体查询
本文介绍了rem单位和媒体查询在移动Web编程中的应用。rem单位是相对于根元素字体大小的CSS长度单位，适合响应式布局和保持元素间比例一致性。媒体查询允许根据不同设备特性应用不同CSS样式，是响应式
阅读更多2024-12-28
【日常开发】Git Stash使用技巧
git stash是一个强大而灵活的 Git 工具，它为我们在复杂的开发过程中提供了便捷的代码变更管理方式。通过合理运用git stash的各种命令，我们可以在不影响代码版本历史的前提下，轻松地切换工
阅读更多2024-12-28
设计模式-创建型-工厂方法模式
工厂方法模式（Factory Method Pattern）是创建型设计模式之一，目的是通过定义一个用于创建对象的接口，让子类决定实例化哪个类。简而言之，工厂方法模式通过延迟对象的创建过程到子类来减少
阅读更多2024-12-28
Hugging Face PEFT LoRA 指令微调 glm4-9b-chat
Hugging Face 的 PEFT LoRA 指令微调 glm-4-9b-chat。
阅读更多2024-12-28
【基础】卒的遍历（DFS）
在一张n*m的棋盘上（如6行7列）的最左上角（1,1）的位置有一个卒。该卒只能向下或者向右走，且卒采取的策略是先向下，下边走到头就向右，请问从（1,1）点走到（n,m）点可以怎样走，输出这些走法。两个
阅读更多2024-12-28
本地小主机安装HomeAssistant开源智能家居平台打造个人AI管家
大家好！今天我要向大家展示如何将一台迷你的香橙派Zero3转换成你家中的智慧家庭控制枢纽。只需安装CasaOS轻NAS系统和HomeAssistant，再利用cpolar内网穿透工具，你就能轻松地远程
阅读更多2024-12-28
C/C++ 数据结构与算法【哈夫曼树】哈夫曼树详细解析【日常学习，考研必备】带图+详细代码
C/C++ 数据结构与算法【哈夫曼树】哈夫曼树详细解析【日常学习，考研必备】带图+详细代码
阅读更多2024-12-28
实战设计模式之策略模式
与前一篇文章中提到的观察者模式一样，策略模式也是一种行为设计模式。它允许我们定义一系列算法，并将每个算法封装起来，使它们可以互换使用。通过这种方式，策略模式使得算法的变化独立于使用这些算法的客户端，从
阅读更多2024-12-28
单例模式懒汉式、饿汉式（线程安全）
默认的懒汉式单例实现是线程不安全的。要确保线程安全，可以使用同步机制或其他设计模式。推荐静态内部类来实现以下是使用静态内部类实现的单例模式的示例，包括一个main函数，展示如何调用并验证单例的行为。这
阅读更多2024-12-28
leetcode 354. 俄罗斯套娃信封问题
先对所有信封排个序，w从小到大，如果w相同则h从大到小。可以证明从左往右遍历数组，如果h[j] > h[i] && i < j，则 i 可以放进 j 里。排序和求最大递增子
阅读更多2024-12-28

2.系统学习-逻辑回归

逻辑回归

前言

最大似然估计

概率

似然函数(likelihood function)

最大似然估计

逻辑回归

逻辑回归的似然函数与梯度

分类问题常用评价指标

项目案例

拓展内容

作业

相关文章