交叉熵损失函数（Cross-Entropy Loss）

🕗 发布于 2024-12-12 20:42 人工智能

原理

交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。

交叉熵的数学公式

交叉熵的定义如下：
$\begin{equation} CrossEntroyLoss = -\sum_{i=1}^{N}y_i \cdot log(\hat{y}_i) \end{equation}$

$N$ ：类别数
$y_i$ ：真实的标签（用 one-hot 编码表示，只有目标类别对应的位置为 1，其他位置为 0）。
$\hat{y}_i$ ：模型的预测概率，即 softmax 的输出值。

对于单个样本：
$\begin{equation} Loss = -log(\hat{y}_c) \end{equation}$
其中 $c$ 是真实类别的索引。

解释：

如果模型的预测概率 $\hat{y}_c$ 越接近1，则 $-log(\hat{y}_c)$ 越小，损失越大。
如果 $\hat{y}_c$ 越接近0，则 $-log(\hat{y}_c)$ 越大，损失越大。

交叉熵损失和softmax函数的关系

模型通常输出logits（未归一化的分数），例如 $[z_1,z_2,\cdots,z_N]$ 。
softmax函数将logits转化为概率分布：
$\begin{equation} \hat{y}_i = \dfrac{z^{z_i}}{\sum_{j=1}^N e^{z_j}} \end{equation}$
交叉熵损失结合 softmax，用来计算预测分布与真实分布之间的差异。

在 PyTorch 的 CrossEntropyLoss 中，softmax 和交叉熵是结合在一起实现的，因此你不需要手动调用 softmax。

特性

应用场景：

多分类任务，例如图像分类、文本分类等。
真实标签通常以整数形式存储（如 0, 1, 2）。

数值稳定性：

由于 softmax 和交叉熵结合在一起，可以避免单独计算 softmax 导致的数值不稳定问题。

Pytorch中的实现

构造函数

PyTorch 提供了 torch.nn.CrossEntropyLoss：

torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduction='mean')

参数说明：

weight：用于对不同类别赋予不同的权重。
ignore_index：指定忽略某些类别的损失（通常用于处理 padding）。
reduction：决定损失的输出形式：
- 'mean'（默认）：返回损失的均值。
- 'sum'：返回损失的总和。
- 'none'：返回每个样本的损失值。

使用示例

1、单样本交叉熵损失

import torch
import torch.nn as nn

# 模型的输出 logits 和真实标签
logits = torch.tensor([[2.0, 1.0, 0.1]])  # 未经过 softmax 的输出
labels = torch.tensor([0])               # 真实标签（类别索引）

# 定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()

# 计算损失
loss = criterion(logits, labels)
print("CrossEntropyLoss:", loss.item())

解释：

logits 是未归一化的分数。
labels 是类别索引（如类别 0）。
内部会先对 logits 应用 softmax，再计算交叉熵损失。

计算细节：

a)、给定的数据

logits: $\begin{bmatrix} 2.0 & 1.0 & 0.1 \end{bmatrix}$
- 这是模型输出的未归一化分数（logits）。
labels: $\begin{bmatrix} 0 \end{bmatrix}$
- 真实标签，表示类别索引（0 表示第一类）。

b)、CrossEntropyLoss 的计算公式，交叉熵损失公式如下：
$\begin{equation} Loss = -\dfrac{1}{N} \sum_{i=1}^{N} log \left( \dfrac{exp(logit_{y_i})}{\sum_j exp(logit_j)} \right) \end{equation}$
其中：

$N$ : 样本数量（在这里为 1）。
$logit_j$ : 第 $j$ 类的 logit 值。
$y_i$ : 样本 $i$ 的真实类别索引。

c)、具体的步骤

step 1：softmax计算概率分布

softmax函数将logits转换为概率分布：
$\begin{equation} softmax(z_i) = \dfrac{exp(z_i)}{\sum_j exp(z_j)} \end{equation}$
对于logits: $\begin{bmatrix} 2.0 & 1.0 & 0.1 \end{bmatrix}$ ，计算如下：

计算每个元素的指数：

$\begin{equation} exp(2.0)=e^2 \approx 7.389, \quad exp(1.0)=e^1 \approx 2.718, \quad exp(0.1)=e^{0.1} \approx 1.105 \end{equation}$

求和：

$\begin{equation} sum = 7.389 + 2.718 + 1.105 \approx 11.212 \end{equation}$

计算每个类别的概率：

$\begin{equation} softmax(2.0)=\dfrac{7.389}{11.212} \approx 0.659,\quad softmax(1.0)=\dfrac{2.718}{11.212} \approx 0.242,\quad softmax(0.1)=\dfrac{1.105}{11.212} \approx 0.099 \end{equation}$

概率分布为：
$\begin{bmatrix} 0.659 & 0.242 & 0.099 \end{bmatrix}$
step 2：取真实标签对应的概率

真实标签 $y = 0$ ，对应的概率为第一个类别的softmax输出：
$\begin{equation} P(y=0)=0.659 \end{equation}$
step 3：计算交叉熵损失

根据交叉熵公式，损失为：
$\begin{equation} Loss = -log(P(y=0)) = -log(0.659) \end{equation}$
计算对数值：
$\begin{equation} log(0.659) \approx -0.416 \end{equation}$
因此，损失为：
$\begin{equation} Loss = 0.416 \end{equation}$

2、多样本交叉熵损失

logits = torch.tensor(
        [[1.5, 0.3, 2.1], [2.0, 1.0, 0.1], [0.1, 2.2, 1.0]]
    )  # Batch size = 3

labels = torch.tensor([2, 0, 1])  # Batch size = 3

# 定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()

# 计算损失
loss = criterion(logits, labels)
print("CrossEntropyLoss:", loss.item())

a)、给定的数据

logits（未归一化的分数）：
$\begin{bmatrix} 1.5 & 0.3 & 2.1 \\ 2.0 & 1.0 & 0.1 \\ 0.1 & 2.2 & 1.0 \end{bmatrix}$
labels（真实标签的索引）：
$\begin{bmatrix} 2 & 0 & 1 \end{bmatrix}$

第一行对应的类别2
第二行对应的类别0
第三行对应的类别1

b)、交叉熵损失函数
$\begin{equation} Loss = -\dfrac{1}{N} \sum_{i=1}^{N} log \left( \dfrac{exp(logit_{i,y_i})}{\sum_j exp(logit_{i,j})} \right) \end{equation}$
其中：

$N = 3$ : 是批量大小。
$logit_{i,j}$ : 是样本 $i$ 对类别 $j$ 的预测分数。
$y_i$ : 样本 $i$ 的真实类别索引。

c)、逐行计算softmax概率和交叉熵损失

step 1：第一行 $\begin{bmatrix} 1.5 & 0.3 & 2.1 \end{bmatrix}$ ，真实标签 = 2

计算softmax：
- 计算每个分数的指数值：
$\begin{equation} exp(1.5) \approx 4.481, \quad exp(0.3) \approx 1.350, \quad exp(2.1) \approx 8.165 \end{equation}$
- 求和
$\begin{equation} sum = 4.481 + 1.350 + 8.165 \approx 13.996 \end{equation}$
- 计算每个类别的概率
$\begin{equation} P(0) = \dfrac{4.481}{13.996} \approx 0.32,\quad P(1) = \dfrac{1.350}{13.996} \approx 0.096,\quad P(2) = \dfrac{8.165}{13.996} \approx 0.583 \end{equation}$
取真实类别2的概率：

$\begin{equation} P(y=2) = 0.583 \end{equation}$

计算损失：

$\begin{equation} Loss_1 = -log(0.583) \approx 0.540 \end{equation}$

step 2：第二行 $\begin{bmatrix} 2.0 & 1.0 & 0.1 \end{bmatrix}$ ，真实标签 = 0

计算softmax：
- 计算每个分数的指数值：
$\begin{equation} exp(2.0) \approx 7.389, \quad exp(1.0) \approx 2.718, \quad exp(0.1) \approx 1.105 \end{equation}$
- 求和
$\begin{equation} sum = 7.389 + 2.718 + 1.105 \approx 11.212 \end{equation}$
- 计算每个类别的概率
$\begin{equation} P(0) = \dfrac{7.389}{11.212} \approx 0.659,\quad P(1) = \dfrac{2.718}{11.212} \approx 0.242,\quad P(2) = \dfrac{1.105}{11.212} \approx 0.099 \end{equation}$
取真实类别0的概率：

$\begin{equation} P(y=0) = 0.659 \end{equation}$

计算损失：

$\begin{equation} Loss_2 = -log(0.659) \approx 0.417 \end{equation}$

step 3：第二行 $\begin{bmatrix} 0.1 & 2.2 & 1.0 \end{bmatrix}$ ，真实标签 = 1

计算softmax：
- 计算每个分数的指数值：
$\begin{equation} exp(0.1) \approx 1.105, \quad exp(2.2) \approx 9.025, \quad exp(1.0) \approx 2.718 \end{equation}$
- 求和
$\begin{equation} sum = 1.105 + 9.025 + 2.718 \approx 12.848 \end{equation}$
- 计算每个类别的概率
$\begin{equation} P(0) = \dfrac{1.105}{12.848} \approx 0.086,\quad P(1) = \dfrac{9.025}{12.848} \approx 0.703,\quad P(2) = \dfrac{2.718}{12.848} \approx 0.211 \end{equation}$
取真实类别1的概率：

$\begin{equation} P(y=1) = 0.703 \end{equation}$

计算损失：

$\begin{equation} Loss_3 = -log(0.703) \approx 0.353 \end{equation}$

d)、批量损失

将每个样本的损失平均：
$\begin{equation} Loss = \dfrac{Loss_1 + Loss_2 + Loss_3}{3} = \dfrac{0.540 + 0.417 + 0.353}{3} \approx 0.437 \end{equation}$
3、带权重的交叉熵

在某些情况下，类别分布不平衡，可以为不同类别设置权重：

weights = torch.tensor([1.0, 2.0, 3.0])  # 类别权重
criterion = nn.CrossEntropyLoss(weight=weights)

loss = criterion(logits, labels)
print("Weighted CrossEntropyLoss:", loss.item())

4、示例：在神经网络中的应用

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的神经网络
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc = nn.Linear(4, 3)  # 输入 4 维特征，输出 3 类

    def forward(self, x):
        return self.fc(x)

# 模型、损失函数和优化器
model = SimpleNet()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

# 输入数据和标签
inputs = torch.tensor([[0.5, 1.2, -1.3, 0.8], [0.3, -0.7, 1.0, 1.5]])  # Batch size = 2
labels = torch.tensor([0, 2])  # 两个样本对应的真实类别

# 前向传播
outputs = model(inputs)

# 计算损失
loss = criterion(outputs, labels)
print("Loss:", loss.item())

# 反向传播和优化
loss.backward()
optimizer.step()

5、总结

交叉熵损失函数用于度量预测分布与真实分布之间的差异，是分类问题中的核心工具。
在 PyTorch 中，torch.nn.CrossEntropyLoss 结合了 softmax 和交叉熵计算，使用简单且高效。
可以通过参数调整（如权重）来适应不平衡数据集。

整合的代码

import torch
import torch.nn as nn
import torch.optim as optim


def single_instance_CrossEntropyLoss():
    # 模型的输出 logits 和真实标签
    logits = torch.tensor([[2.0, 1.0, 0.1]])  # 未经过 softmax 的输出
    labels = torch.tensor([0])  # 真实标签（类别索引）

    # 定义交叉熵损失函数
    criterion = nn.CrossEntropyLoss()

    # 计算损失
    loss = criterion(logits, labels)
    print("CrossEntropyLoss:", loss.item())


def multi_instance_CrossEntropyLoss():
    logits = torch.tensor(
        [[1.5, 0.3, 2.1], [2.0, 1.0, 0.1], [0.1, 2.2, 1.0]]
    )  # Batch size = 3

    labels = torch.tensor([2, 0, 1])  # Batch size = 3

    # 定义交叉熵损失函数
    criterion = nn.CrossEntropyLoss()

    # 计算损失
    loss = criterion(logits, labels)
    print("CrossEntropyLoss:", loss.item())


# 定义一个简单的神经网络
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc = nn.Linear(4, 3)  # 输入 4 维特征，输出 3 类

    def forward(self, x):
        return self.fc(x)


def apply_deepLearning_CrossEntropyLoss():

    # 模型、损失函数和优化器
    model = SimpleNet()
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=0.01)

    # 输入数据和标签
    inputs = torch.tensor(
        [[0.5, 1.2, -1.3, 0.8], [0.3, -0.7, 1.0, 1.5]]
    )  # Batch size = 2
    labels = torch.tensor([0, 2])  # 两个样本对应的真实类别

    # 前向传播
    outputs = model(inputs)

    # 计算损失
    loss = criterion(outputs, labels)
    print("Loss:", loss.item())

    # 反向传播和优化
    loss.backward()
    optimizer.step()


if __name__ == "__main__":
    print("*" * 30)
    single_instance_CrossEntropyLoss()
    multi_instance_CrossEntropyLoss()
    apply_deepLearning_CrossEntropyLoss()

原文地址：https://blog.csdn.net/qq_39437730/article/details/144392187

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【H2O2|全栈】Vue2（二）
下一篇：LeetCode | 动态口令

IT运维实践：东方通V6简单上手高可用搭建
二、如下图所示conf下文件名为httpserver.conf，httpserverHA.conf这两个文件即使配置高可用的关键、bin下startHA.sh，start.sh，startConsol
阅读更多2024-12-12
【模型对比】ChatGPT vs Kimi vs 文心一言那个更好用？数据详细解析，找出最适合你的AI辅助工具！
在深入比较之前，首先让我们简单了解一下这三款AI助手的背景与核心技术。ChatGPT是由OpenAI开发的强大AI模型，自2015年成立以来，OpenAI一直致力于推动人工智能技术的发展。ChatGP
阅读更多2024-12-12
【maven-9】Maven插件：深入理解与高效使用
Maven 插件是 Maven 的核心扩展机制。每个插件包含一组目标（goals），每个目标代表一个特定的任务。例如，插件包含编译源代码的目标，插件包含运行测试的目标。首先，创建一个新的 Maven
阅读更多2024-12-12
Springboot实现调用接口（使用RestTemplate）
【代码】Springboot实现调用接口（使用RestTemplate）
阅读更多2024-12-12
2024前端面试题(持续更新)
symbol表示第一无二唯一的值，它有几个特性：1、唯一性每次调用symbol函数都会创建一个唯一的，独一无二的值。// 输出: false2、不可修改性symbol类型的值是不可变的，一旦创建就不能
阅读更多2024-12-12
安卓TvView显示hdmi-in画面
功能其实很简单, mTvView.tune(list.get(0).getId(),uri) 这一句需要延迟一点,可能跟加载uri速度有关系,不延迟的话显示不了.
阅读更多2024-12-12
Linux第二期 8.1 8.2
设置CPSR程序状态寄存器-->设置处理器为SVC模式。5.编写Makefile文件，实现 .bin文件的生成。2.设置main.h文件，通过宏定义相应存储器的地址。4.编写链接文件 lds文
阅读更多2024-12-12
C++(十四)
本文主要讲解for循环。
阅读更多2024-12-12
YOLO11改进-模块-引入多尺度差异融合模块MDFM
MDFM主要用于融合双时相图像特征并生成带有丰富上下文信息的差异特征，其过程包含以下步骤：1. 特征提取与差异特征生成首先从双时相图像中提取特征f1和f2，然后将f1和f2进行像素级别的相减，再对相减
阅读更多2024-12-12
路由传值的几种方式
【代码】路由传值的几种方式。
阅读更多2024-12-12