sigmoid和softmax的异同以及对应的loss解析

🕗 发布于 2024-11-23 09:01 人工智能 深度学习 激活函数损失函数多标签分类

一、综述

sigmoid和softmax都是激活函数，目的是让模型输出的数据进行非线性的变化然后输出，当训练时这个输出作为损失函数的输入，在损失函数中跟真实值进行计算得到loss值。反向传递时，框架会自动微分进行参数更新。那么这两个激活函数有什么区别与联系呢？

二、激活函数以及对应的loss解析

2.1 sigmoid

公式为：

图像为：

可以理解为通过sigmoid输出的值即为该位置的概率值，跟其他位置无关，这就使得sigmoid激活函数更适合用于二元分类的场景中，或者是多标签分类中，只看每个类别，而不管其他类别，搭配二元交叉熵使用。即：

Sigmoid 函数是独立地对每个类别的预测值进行激活，输出的每个值都表示该类别的概率，但是每个类别的概率是独立计算的，不考虑其他类别的概率。这就意味着，所有类别的概率之和可以大于 1。

二元交叉熵计算损失的公式为：

其中，y 是标签（0 或 1），y_hat 是经过 Sigmoid 激活后的预测概率。

要求标签是硬标签one-hot，如果是该类，该类的位置即为1，其他类的位置即为0，计算loss并迭代，使得输出正确的位置的概率值尽可能大，错误的位置概率值尽可能小。

2.2 softmax

公式为：

输出是0到1的值，但所有值加起来会等于1。这会将模型输出的 logits 转换为每个类别的对数概率。然后，使用 软标签（可能是浮动的概率分布）来计算损失。用交叉熵可以记为soft_cross_entropy来计算损失，公式为：

其中，yi 是每个类别的标签（可以是浮动值），yi_hat 是通过 Softmax 得到的类别 iii 的预测概率。这里，标签 yi 不再是 0 或 1，而是类别的 概率值，这使得 soft_cross_entropy 可以处理更加平滑的标签分布。

soft_cross_entropy 损失函数是基于 交叉熵 来计算的，因此它假设标签是一个 概率分布，即每个类别的标签值是一个介于 0 和 1 之间的概率，用来衡量 预测的概率分布 和 真实的标签分布 之间的差异，表示每个类别的置信度或可能性。而且为了使计算具有意义，标签中的概率值应该满足概率分布的基本属性——所有类别的概率之和为 1。

如果标签的和不为 1，标签就不再代表一个有效的概率分布。这会导致损失计算时模型预测的概率分布与实际标签分布的差异无法准确度量。例如，交叉熵中的对数项要求标签值是概率值，如果标签值的和不为 1，计算出来的对数可能不是有效的概率对数，这会导致模型训练过程中的梯度更新变得不稳定或不合理。

原文地址：https://blog.csdn.net/ThomasCai001/article/details/143980905

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：centos一键卸载docker脚本
下一篇：赛氪媒体支持“2024科普中国青年之星创作交流活动”医学专场落幕

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

sigmoid和softmax的异同以及对应的loss解析

一、综述

二、激活函数以及对应的loss解析

2.1 sigmoid

2.2 softmax

相关文章