什么是softmax回归？

🕗 发布于 2024-09-22 04:03 机器学习 人工智能 python

一、前言

1、softmax回归不是回归问题，而是分类问题

2、分类问题：对离散值的预测。

3、分类问题通常有多个输出，输出 i 预测为第 i 类的置信度

二、网络结构

1、为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出

2、在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的w），3个标量来表示偏置（带下标的b）

3、下面是为每个输入计算三个为归一化的预测

4、与线性回归一样，softmax回归也是一个单层神经网络。

5、由于计算每个输出o1、o2和o3取决于所有输入x1、x2、x3和x4，所以softmax回归的输出层也是全连接层。

6、上图中，输入层的每个x都表示样本的一个特征。输出层的三个o就是类别数

三、softmax运算

1、基本思想：在分类中，我们采取的主要方法就是将模型的输出视作为概率，我们希望模型的输出 𝑦̂ 𝑗可以视为属于类 j 的概率

2、存在问题：

没有限制这些数字的总和为1
根据输入的不同，这些数值可以为负值，违反了概率基本公理

3、softmax回归：首先对每个未归一化的预测求幂，这样可以确保输出非负。为了确保最终输出的总和为1，我们再对每个求幂后的结果除以它们的总和。

softmax 运算不会改变未归一化的预测 𝐨o 之间的顺序，只会确定分配给每个类别的概率。

尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型

四、小批量样本的矢量化

1、为了提高计算效率并且充分利用GPU，我们通常会针对小批量数据执行矢量计算。

2、假设我们读取了一个批量的样本 X ，其中特征维度（输入数量）为d，批量大小为n。此外，假设我们在输出中有 q 个类别。那么小批量特征为 X∈Rn×d ，权重为W∈Rd×q，偏置为 b∈R1×q

3、softmax回归的矢量计算表达式

4、由于 X 中的每一行代表一个数据样本，所以softmax运算可以按行（rowwise）执行：对于O的每一行，我们先对所有项进行幂运算，然后通过求和对它们进行标准化。

5、小批量的未归一化预测 𝐎O 和输出概率 ̂Y^ 都是形状为 n×q 的矩阵。

五、交叉熵损失函数

1、我们已经知道，softmax运算将输出变换为了一个合法的类别预测分布

2、实际上，真实标签也可以用类别分布表达：对于样本 i，我们构造向量y(i)∈Rq，使其第y(i)（样本i类别的离散数值）个元素为1，其余为0。

3、对于任何标签 𝐲 和模型预测 𝐲̂ ，损失函数为：（由于是一个长度为 q 的独热编码向量，所以除了一个项以外的所有项 𝑗j 都消失了。由于所有 𝑦̂ 𝑗 都是预测的概率，所以它们的对数永远不会大于 0）

原文地址：https://blog.csdn.net/nierfantasty/article/details/127624495

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化...
下一篇：AI学习指南机器学习篇-逻辑回归在python中的实现

OPC学习笔记
3. 解决前，读取字符串：165℃。2. 解决后，读取字符串：你好。解决后，读取字符串，165℃。
阅读更多2024-11-15
【秋招笔试-支持在线评测】11.06花子秋招(已改编)-三语言题解
🍭 大家好这里是，一起备战大厂笔试💻 ACM金牌团队🏅️ | 多次AK大厂笔试｜大厂实习经历✨ 本系列打算持续跟新春秋招笔试题。
阅读更多2024-11-15
技术整合与生态构建：Lyft与Mobileye引领自动驾驶新纪元
而Lyft与Mobileye的合作，正是抓住了这一市场趋势，通过提供高质量、便捷的服务，进一步满足了用户的需求，推动了自动驾驶出行服务的商业化进程。此次合作，Mobileye将把其最新的人工智能技术进
阅读更多2024-11-15
vue2在el-dialog打开的时候使该el-dialog中的某个输入框获得焦点方法总结
vue2在el-dialog打开的时候使该el-dialog中的某个输入框获得焦点方法总结
阅读更多2024-11-15
【无标题】
Dataset增加是增加示例还是运用原先的数据库，Database增加是新加一个全新的数据库。Dataset里面是各种数据库模型示例可以点击然后点击右侧的Video进行查看示例。需注意的是，当界面关闭
阅读更多2024-11-15
Andriod Studio 开发技巧
代码展开/收起：command + shift + （-+）全局代碼搜索：command + shift + F文件搜索：command + shift + o清理和重新获取依赖： flutter c
阅读更多2024-11-15
专题十八_动态规划_斐波那契数列模型_路径问题_算法专题详细总结
这个时候，不但要多开一行，还要多开两列，将左右两列都设置成INT_MAX，因为本来这两列是不存在的，但是为了在遍历上一行的三个位置的时候会出现越界情况，所以，多开两列，设置成最大值，这样就不会出现越界
阅读更多2024-11-15
C++copy memcpy strcpy
InputIt和OutputIt可以是迭代器类型也可以是指针类型first指向数组或者容器的第一个元素位置，last指向最后一个元素的下一个位置，遵循左闭右开原则，d_first指向复制产出对象第一个
阅读更多2024-11-15
OpenCV3.4.0 添加contrib模块过程记录
结束后将INSTALL设为启动项目，再次生成，所有库文件会被打包到build\install\x64\vc15\lib文件夹中。然后输入cd G:\Temp\opencv3.4.0\build\in
阅读更多2024-11-15
去中心化联邦学习与TinyML联合调查：群学习简介
因此，大多数工作将模型存储在去中心化的方式中（例如IPFS），并将哈希信息保存到区块链中，但这需要额外的努力来保证保存模型的可靠性。群学习（SL）是一种去中心化的联邦学习范式，它通过结合边缘计算方法和
阅读更多2024-11-15