【AI知识点】负对数似然损失函数（Negative Log-Likelihood Loss，NLL）

🕗 发布于 2024-10-05 10:48 人工智能 机器学习 损失函数 DPR

负对数似然损失函数（Negative Log-Likelihood Loss，NLL） 是机器学习，尤其是分类问题中常用的一种损失函数。它用于衡量模型预测的概率分布与真实标签之间的差异。负对数似然损失函数的目标是最大化正确类别的预测概率，同时最小化错误类别的预测概率。

基本概念

我们从对数似然（log-likelihood） 开始理解。假设模型的输出是一个概率分布，用于预测某个样本属于不同类别的概率。对于每个样本，真实标签表示其所属的正确类别。对数似然计算的是模型给正确类别分配的概率。如果模型给正确类别分配的概率越高，则模型的预测越好。

然而，我们不希望最大化似然，而是最小化损失。为此，我们使用负对数似然，通过将对数似然加上负号，使得模型最大化正确类别的概率时，负对数似然损失最小。

数学表达

假设我们有一个分类问题，输入的样本 $x$ 属于类别 $y$ ，且模型的输出是对不同类别的概率预测。对于样本 $x$ ，模型的输出概率分布记为 $P (y ∣ x)$ ，即给定样本 $x$ ，预测其属于类别 $y$ 的概率。

模型的目标是尽量给真实标签（即类别 $y$ ）赋予高的概率。负对数似然损失的数学表达如下：

$\log P(y|x)$

其中：

$P (y ∣ x)$ 是模型预测的样本 $x$ 属于类别 $y$ 的概率。
$-\log P(y|x)$ 是该概率的负对数。

当模型给出正确的高概率时， $P (y ∣ x)$ 接近1，此时 $-\log P(y|x)$ 接近0，意味着损失较小；而如果模型给出的概率较低， $P (y ∣ x)$ 接近0， $-\log P(y|x)$ 会趋向于无穷大，意味着损失非常大。

多分类场景下的负对数似然

在多分类问题中，模型的输出是一组概率分布，这组概率分布表示每个类别的预测概率。假设有 $C$ 个类别，模型的输出为每个类别的预测概率 $P(y_i|x)$ ，其中 $i=1,2,\dots,C$ 。对于多分类问题，负对数似然损失函数可以写为：

$\sum_{i=1}^{C} y_i \log P(y_i|x)$

其中：

$y_i$ 是真实类别的指示变量（one-hot encoding），如果样本 $x$ 属于类别 $i$ ，则 $y_i = 1$ ，否则 $y_i = 0$ 。
$P(y_i|x)$ 是模型预测样本 $x$ 属于类别 $i$ 的概率。

因为在真实标签下，只有对应的 $y_i$ 为1，其它类别的 $y_i$ 都为0，所以最终损失只依赖于正确类别的预测概率，即：

$\log P(y_{\text{true}}|x)$

这意味着，我们只关心模型对真实类别的预测概率，并通过最小化这个损失来训练模型。

用通俗的语言解释

假设你在玩一个猜谜游戏，问题是“苹果是什么颜色？”，而你有三个选项：“红色”、“蓝色”、“绿色”。你的任务是尽可能准确地猜出答案（显然答案是“红色”）。

在训练模型时，系统会给每个选项分配一个概率值，表示模型认为这个选项为正确答案的概率。假设模型的输出是这样的概率分布：

红色：0.7
蓝色：0.2
绿色：0.1

这个时候，系统希望最大化“红色”这一选项的概率，因为“红色”是正确答案。如果模型给正确答案“红色”分配的概率很高，系统就很开心，认为模型表现很好。这时损失函数的值会很低。

而负对数似然损失函数的工作方式是：当模型给“红色”（正确答案）分配高概率时，它会惩罚得少（损失小）；但如果模型把高概率分配给错误答案，比如给“蓝色”分配了0.7，而给“红色”分配了0.2，那损失就会很大，表示模型犯了大错误。

应用举例：在DPR中的应用

在DPR（Dense Passage Retriever 稠密段落检索）中，负对数似然损失函数被用来优化模型的检索性能。对于每一个问题，DPR希望模型能找到与问题最相关的正样本段落，同时排除那些不相关的负样本。损失函数的目标就是让模型尽量提高正样本的相似度分数，并降低负样本的相似度分数。

具体地，DPR会计算问题与所有段落的相似性分数，其中：

正样本的相似度分数应尽量高；
负样本的相似度分数应尽量低。

具体损失函数为：

$L(q_i, p_i^+, p_{i,1}^-, \dots, p_{i,n}^-) = - \log \frac{e^{sim(q_i, p_i^+)}}{e^{sim(q_i, p_i^+)} + \sum_{j=1}^{n} e^{sim(q_i, p_{i,j}^-)}}$

这里：

$sim(q_i, p_i^+)$ 表示问题 $q_i$ 与正样本段落 $p_i^+$ 的相似度。
$sim(q_i, p_{i,j}^-)$ 表示问题 $q_i$ 与负样本段落 $p_{i,j}^-$ 的相似度。

负对数似然损失函数通过对正样本的相似性进行负对数运算，迫使模型在训练过程中学会区分正负样本。这样，模型在面对新问题时，能够更有效地找到与问题最相关的段落。

总结

负对数似然损失函数是分类任务中的常用损失函数，目标是最大化模型对正确类别的预测概率。

原文地址：https://blog.csdn.net/weixin_43221845/article/details/142671302

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ElasticSearch入门
下一篇：Vue3 项目中为啥不需要根标签了？

与指定数字相同的数的个数
输出一个整数序列中与指定数字相同的数的个数。
阅读更多2024-10-09
天然钻石/人工钻石，烧一烧都是二氧化碳
你看金啊，到1000度以后，大不了融化了，成为液态黄金，但还是金啊，温度降低后又变回固态黄金。那有人说，你说的这一切，只能说明钻石不值钱，但我结婚时，是为爱消费，即便它只值1000，我也愿意花十万去买
阅读更多2024-10-09
软考攻略/超详细/系统集成项目管理工程师/基础知识分享11
软考攻略/超详细/系统集成项目管理工程师/基础知识分享11
阅读更多2024-10-09
513. Find Bottom Left Tree Value
Given the of a binary tree, return the leftmost value in the last row of the tree.Example 1:Input:
阅读更多2024-10-09
25.优惠价秒杀
经过排查jmeter工具开启100个线程立马操作数据库（很多处）而且还添加了事务，导致代码运行慢，占用大量的数据库连接（数据库默认连接数是100个）。如果最终发现确实是项目需要更多的连接数，那就要修改
阅读更多2024-10-09
shell脚本写代码
用简单的test语句来判断是否闰年。判断一个数是否为偶数。
阅读更多2024-10-09
UE-Advanced Usage
衰落仿真器有两个参数：`enable`和`model`。模拟器在`on`状态下花费的时间由`rlf.t_on_ms`和`rlf.t_off_ms`参数化，分别用于`off`。其中`delay.min_
阅读更多2024-10-09
数据结构单向链表
单向链表的转置转置的思想(1) 将头节点与当前链表断开，断开前保存下头节点的下一个节点，保证后面链表能找得到，定义一个q保存头节点的下一个节点，断开后前面相当于一个空的链表，后面是一个无头的单向链表(
阅读更多2024-10-09
vue实现获取当前时间并实时显示
以下代码可以实现获取当前时间并实时显示，朋友们直接copy使用即可，希望可以帮助到有需要的朋友们！// 在Vue实例销毁前，清除时间定时器。// 格式化需要展示的时间格式。// 将月份和日期补零。//
阅读更多2024-10-09
Qt-目录和文件
QDir 类用来处理目录常用方法：QDir(QString path) ：实例化absolutePath() : 获取目录绝对路径dirName() : 获取目录相对路径exists(dirPath
阅读更多2024-10-09