从0开始深度学习（8）——softmax回归

🕗 发布于 2024-10-12 12:37 深度学习 回归 人工智能

1 分类问题

深度学习从大方向上来说，就是回归预测和分类问题。

假设输入一个 $2 * 2$ 的灰度图像，可能属于“鸡、猫、狗”三个类别中的一个，那如何在计算机中表示标签呢？最常见的想法是 $y= \{1,2,3\}$ ，其中的数字分别代表 ${ 狗,猫,鸡 \}$ 。

但是一般的分类问题并不与类别之间的自然顺序有关，所以会使用one-hot编码，即类别对应的分量设置为1，其他所有分量设置为0。

在我们的例子中，标签将是一个三维向量，其中 $(0, 1, 0)$ 对应于“猫”、 $(0, 0, 1)$ 对应于“鸡”、 $(1, 0, 0)$ 对应于“狗”。

2 网络架构

为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。

我们假设有4个特征和3个可能对的输出，所有有12个标量表示权重 $w$ ，3个标量表示偏置项 $b$ ， $o$ 是预测输出：
在这里插入图片描述

为了解决这种多分类问题，这里使用softmax网络：
在这里插入图片描述
softmax网络是一个有多个输入、多个输出的单层神经网络，我们使用向量表达式 $o = W x + b$ 简洁的表达模型

3 全连接层的参数开销

具体来说，对于任何具有 $d$ 个输入和 $q$ 个输出的全连接层，参数开销为 $O (q d)$ ，这个数字在实践中可能高得令人望而却步。

幸运的是，将 $d$ 个输入转换为 $q$ 个输出的成本可以减少到 $O (d q / n)$ ，其中超参数 $n$ 可以由我们灵活指定。

4 softmax运算

我们希望模型最后输出的 $数据 X$ 对应的 $各个标签$ 的是一个概率，然后把最大的概率标签视为我们最后的预测结果。要将输出视为概率，我们必须保证在任何数据上的输出都是非负的且总和为1。

此外，我们需要一个训练的目标函数，来激励模型精准地估计概率。 softmax函数会将每个元素转换为一个介于0和1之间的值，同时保证所有输出的概率总和为1，同时让模型保持可导的性质，公式如下：

$\frac{e^{o_{i} } }{ {\textstyle \sum_{j=1}^{k}}e^{o_{j} } }$

$o$ 是把输入的特征向量 $x$ 经过线性变换得到的向量，长度为 $k$ 。 $P$ 表示输入向量 $x$ 属于类别 $i$ 的概率

尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型。

5 小批量样本的矢量化

为了提高计算效率并充分利用GPU，我们通常会对小批量样本的数据执行矢量计算。

假设我们读取一个批量的样本 $X$ ，特征维度为 $d$ ，批量大小为 $n$ ，我们输出有 $q$ 个类别。

所以小批量样本的特征为 $\in \mathbb{R}^{n\times d}$ ，权重为 $\in \mathbb{R}^{d\times q}$ ，偏置为 $\in \mathbb{R}^{1\times q}$

所以softmax回归的矢量表达式为：
在这里插入图片描述
相对于一次处理一个样本，小批量样本的矢量化使用了矩阵-向量乘法，可以充分利用GPU进行加速计算。

6 损失函数

在线性回归中，我们使用的是MSE作为损失函数，但之前那个例子是回归预测，这里是分类任务，所以这里使用最大似然估计，概念如下：

假设我们有一个概率模型 $P (x ∣ θ)$ ，其中 $x$ 是观测数据， $θ$ 是模型的参数。我们的目标是找到参数 $θ$ 的最优值，使得观测数据 $x$ 出现的概率最大。

6.1 对数似然

softmax函数会输出一个向量 $\hat{y}$ ，即“输入的 $x$ 对应的每个标签的条件概率”，例如 $\hat{y}_{1}=P(y=猫 | X)$ 。

假设整个数据集 ${X,Y\}$ ，其中索引为 $i$ 的样本由特征向量 $x^{(i)}$ 和one-hot编码 $y^{(i)}$ 组成，所以我们可以将估计值和真实值进行比较：
在这里插入图片描述
表示在给定整个数据集的特征 $X$ 的情况下，标签 $Y$ 的概率等于每个样本中在给定该样本特征 $x^{(i)}$ 的情况下标签 $y^{(i)}$ 的概率之积。

我们要最大化 $P (Y ∣ X)$ ,所以应该取负对数，因为取对数可以把累积转化为累加，同时因为对数函数是单调递增的，对概率取对数后再取负，最小化负对数似然就等价于最大化原始的概率，所以损失函数如下：
在这里插入图片描述

6.2 softmax及其导数

将softmax函数带入损失函数得到：
**注意：**因为是 $y$ 独热标签向量，即除了对应真实类别的那个位置为 $1$ ，其余位置都为 $0$ ，所以 $\sum_{j=1}^{q}y_{i}=1$
在这里插入图片描述
然后对损失函数求 $o_{j}$ 的导数（为了计算梯度），步骤如下：

即

换句话说，这个导数是我们softmax模型分配的概率与实际发生的情况（由独热标签向量表示）之间的差异。

6.3 交叉熵损失

最后输出的是 $(0.1, 0.2, 0.7)$ ，而不是 $(0, 0, 1)$ ，所以所有标签分布的预期损失值，称为交叉熵损失（cross-entropy loss），它是分类问题最常用的损失之一。

下面将通过介绍信息论来帮助理解交叉熵损失

7 信息论基础

信息论（Information Theory）是研究信息的量化、存储、传输和处理的数学理论，涉及编码、解码、发送以及尽可能简洁地处理信息或数据。

7.1 熵

信息论的核心思想是量化数据中的信息内容。在信息论中，该数值被称为分布 $P$ 的（entropy）。

对于一个随机变量 $X$ ，其概率分布为 $P (X = j) = p (j)$ ，即一个事件 $X = j$ 的概率为 $P (j)$ ，所以该事件的自信息量（表示一个事件发生所带来的信息量）被定义为 $I (j) = - l o g P (j)$ 。

之所以这样定义，是因为概率 $P (j)$ 越小， $- l o g P (j)$ 的值就越大，符合低概率事件带来高信息量的直观理解。

所以熵 $H [P]$ 就是所有可能发生的事件的自信息量的期望:
在这里插入图片描述

7.2 重新审视交叉熵

交叉熵（Cross-Entropy）是信息论中的一个重要概念，用于衡量两个概率分布之间的差异。

假设有两个概率分布 $P$ 和 $Q$ ，其中 $P$ 表示真实分布， $Q$ 表示模型预测的分布，所以交叉熵分布 $H (P, Q)$ 定义为：
$H(P,Q)=\sum_{x}P(x)logQ(x)$
$x$ 表示所有可能的事件或者类别。

8 模型预测和评估

在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测与实际类别（标签）一致，则预测是正确的。在接下来的实验中，我们将使用精度（accuracy）来评估模型的性能。精度等于正确预测数与预测总数之间的比率。

原文地址：https://blog.csdn.net/m0_53115174/article/details/142831996

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：jsp怎么实现点赞功能
下一篇：centos7执行yum命令时报：Could not resolve host: mirrorlist.centos.org； Unknown error

【中短文--深度学习笔记】Batchsize的选择、批量归一化、loss是否已经收敛（更新中-ing）
如果你没有任何参考，那么（即64、128、256、512、1024等）可以会更加直接和易于管理。而对于来说，batchsize大小最好<=数据集样本数*0.1。
阅读更多2024-10-13
数据在内存中的存储【下】
我们常见的浮点数：3.14159，1E10等，浮点数家族包括：float，double, long double类型。浮点数表示的范围：float.h中定义。之前我们说过浮点数在内存中无法精确保存，那
阅读更多2024-10-13
kafka-manager修改zookeeper端口号后启动仍然连接2181端口
zookeeper默认端口号修改为了2182，kafka-manager的配置文件application.conf中也已经修改了zkhosts为新的端口号，然而启动kafka-manger时报错连接连
阅读更多2024-10-13
教育培训系统小程序的设计
教师账户功能包括：系统首页，个人中心，课后习题测试管理，观看进度管理，论坛管理，网课信息管理，公告信息管理，学生管理，试卷管理，测试管理。主要技术：Java,Spring,mybatis,mysql,
阅读更多2024-10-13
使用Mockaroo生成测试数据
https://www.mockaroo.com/ Mockaroo lets you generate up to 1,000 rows of realistic test data in CSV,
阅读更多2024-10-13
提升邮件营销设计精准度秘诀，效率与效果实践
通过这些工具，营销人员可以更精准地预测用户行为，对不同用户群体进行细分，从而定向发送更为相关和个性化的邮件。此外，邮件标题是决定用户是否打开邮件的第一关键，需要足够吸引人，激发用户的好奇心和兴趣。邮件
阅读更多2024-10-13
LeetCode18.四数之和
现保持p1和p2不动，让left与right相向运动，若(long)nums[left] + (long)nums[right] + (long)nums[p1] + (long)nums[p2] =
阅读更多2024-10-13
【HTML格式PPT离线到本地浏览】
如何下载动态网站的资源呢？这里使用的是影刀RPA+脚本的方式实现。通过下载教育类网站上的PPT为例，将网上的PPT可以离线浏览。
阅读更多2024-10-13
SwiftUI 在 iOS 18 中的 ForEach 点击手势逻辑发生改变的解决
在本篇博文中，我们讨论了 iOS 18 中的 SwiftUi ForEach 视图点击逻辑和之前略有不同的情况，并给出解决方法。这可能是 SwiftUI 在 iOS 18 系统中变得更加严谨了。
阅读更多2024-10-13
研发线上事故风险解读之缓存篇
本文基于《线上事故案例集》深入探讨了缓存使用中的问题，指出尽管缓存应用门槛低，但高并发、大流量等特性使其面临技术挑战。缓存设计需预防大Key问题，包括设计阶段的预防、运营阶段的快速识别和优化阶段的拆分
阅读更多2024-10-13