深度学习中的logit到底是什么？

🕗 发布于 2024-10-11 01:38 深度学习 人工智能

1. 问题

在做深度学习的过程中，经常会碰到logit。这个和在学校学的概率有出入，因而想弄明白这到底是个什么参数。

2. 使用logit的原因

定义几率（odds）和 logit 函数的主要原因在于使用了线性空间转换，使得非线性的概率关系问题变成线性化。

将非线性的概率关系线性化，使得线性回归模型可以处理分类问题；
几率作为概率的一种解释方式，能提供直观的物理意义；
Logit 函数的逆函数（sigmoid）确保了预测的概率值在 0 到 1 之间；
利于采用最大化似然估计方法来进行参数估计和模型优化。

3. 详细解释

通过这个定义，逻辑回归能够以一种线性方式处理分类问题，从而实现对概率的合理预测。

定义几率（odds）和logit函数的原因，是为了将二分类问题中的概率关系转化为一种线性的表示，使得回归模型能够处理概率预测。这种定义背后有几层考虑：

3.1. 解决非线性问题

在二分类问题中，概率 ( p ) 的值介于 0 到 1 之间，这本质上是非线性的。直接用线性回归模型预测概率会导致一些问题，因为线性模型可能会产生不在 ( [0, 1] ) 范围内的值。而使用对数几率的定义（log odds）可以将概率映射到整个实数范围（从 $-\infty$ 到 $+\infty$ ），这使得预测更加合理且线性化。
例如：

当事件发生的概率 ( p ) 接近 0 时，logit $\ln\left(\frac{p}{1 - p}\right)$ 的值接近 $-\infty$ ；
当事件发生的概率 ( p ) 接近 1 时，logit 的值接近 $+\infty$ 。

通过这个映射，logit 函数能够将 ( p ) 的非线性变化线性化，适应回归模型的需求。

3.2. 可解释性

几率（odds）作为概率的一种替代表示，其物理含义非常直观。几率表示事件发生的相对可能性，比如：

如果某事件发生的概率 ( p = 0.75 )，那么几率 ( \frac{p}{1-p} = 3 )，意味着事件发生的可能性是其不发生的 3 倍。
如果 ( p = 0.5 )，几率为 1，表示事件发生与不发生的可能性相等。

通过对几率取对数（logit），我们能够将这类相对关系进一步转换为实数范围，且通过线性变化表达分类问题的复杂性。

3.3. 线性模型的适应性

逻辑回归中用 logit 函数的一个重要原因是：线性模型不能直接拟合非线性概率。假设我们有一个简单的线性模型：

$\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n$

如果直接将 ( y ) 作为概率 ( p )，可能会出现模型预测出负的概率值，或者超过 1 的概率值，这显然是不合理的。因此，logit 函数通过这种对数变换，使得线性模型能够更合理地预测分类问题中的概率。

具体来说，逻辑回归模型是将预测变量通过线性回归来预测 logit：

$\ln\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n$

通过这种方式，logit 保证了预测的概率 ( p ) 始终在 0 和 1 之间。

3.4. Logit 的逆变换（Sigmoid 函数）

Logit 函数的逆变换是 sigmoid 函数，也称为 Logistic 函数：

$\frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n)}}$

这使得最终得到的概率始终处于 0 到 1 之间，从而解决了线性回归无法处理的非线性问题。

补充材料： 4. 最大化似然估计

在逻辑回归中，我们通常采用最大化似然估计（Maximum Likelihood Estimation, MLE）来优化模型参数。logit 函数的定义使得用最大似然方法推导损失函数时更为方便，也保证了损失函数是凸函数，从而更容易进行优化求解。

4.1. 最大似然估计（MLE）的基本思想

最大似然估计的核心思想是：我们希望找到一组模型参数，使得观测数据在当前模型下的出现概率最大化。换句话说，我们希望估计出一组参数，能够最可能地解释数据。

对于逻辑回归，假设输入特征为 ( X )，输出为 ( y )，我们希望找到一组参数 $\beta_0, \beta_1, ..., \beta_n$ 来预测 ( y ) 的概率 p(y|X) 。逻辑回归模型预测的是事件发生的概率 ( p ) 和不发生的概率 ( 1 - p )：

$\frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_n x_n)}}$

这是通过逻辑回归模型的 sigmoid 函数（Logistic 函数）来得到的概率值。

4.2. 似然函数（Likelihood Function）

假设我们有一组训练数据 $X_1, y_1), (X_2, y_2), ..., (X_n, y_n)$ ，每个样本 ( i ) 的输入是 $X_i$ ，输出标签 $y_i$ 。我们可以构造似然函数，即模型参数使得整个数据集 ( X ) 产生的可能性：

$L(\beta|X) = \prod_{i=1}^{n} p(y_i|X_i)$

对于二分类问题，如果 $y_i = 1$ ，那么 $p(y_i|X_i)$ 就是模型输出的概率 p；如果 $y_i = 0$ ，则 $p(y_i|X_i)$ 是 $1 - p$ 。

因此，似然函数可以写成：

$L(\beta|X) = \prod_{i=1}^{n} p_i^{y_i} (1 - p_i)^{(1 - y_i)}$

其中， $p_i = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_n x_n)}}$ 是样本 i 的预测概率。

5.3. 取对数似然函数（Log-Likelihood）

为了方便计算，我们通常取似然函数的对数，称为对数似然函数（log-likelihood function）：

$\log L(\beta|X) = \sum_{i=1}^{n} [y_i \log p_i + (1 - y_i) \log (1 - p_i)]$

这是因为对数运算可以将乘积转化为求和，使得计算更简单。这个对数似然函数是逻辑回归的目标函数，最大化这个对数似然函数相当于找到最优的参数 ( \beta )，使得模型最可能地解释数据。

5.4. 损失函数的推导

最大化对数似然函数等价于最小化负对数似然函数，因此我们可以定义损失函数为：

$\text{Loss}(\beta) = - \log L(\beta|X) = - \sum_{i=1}^{n} [y_i \log p_i + (1 - y_i) \log (1 - p_i)]$

这个负对数似然函数就是逻辑回归的交叉熵损失函数（cross-entropy loss）。它衡量的是模型预测的概率分布与真实分布之间的差异。

5.5. logit 函数的作用

logit 函数 $\text{logit}(p) = \ln\left(\frac{p}{1-p}\right)$ 在推导过程中起到了重要的作用，它将非线性的概率 ( p ) 转换成了可以用线性模型表示的 log odds。具体地：

我们通过线性回归模型来预测 logit 值 $\beta_0 + \beta_1 x_1 + ... + \beta_n x_n$ ，而这个 logit 值再通过 sigmoid 函数转化为概率。
这种转化让我们能够在线性空间内处理分类问题，同时最大化似然估计来优化模型参数。

5.6. 优化过程

通过最小化负对数似然函数（或等价地最大化对数似然函数），我们可以通过梯度下降等优化算法来找到最优的模型参数。

5.7 小结

logit 函数的定义（即对几率取对数）是为了将二分类问题中的非线性概率变换为线性形式，使得逻辑回归可以利用线性回归模型预测事件发生的概率。这个线性化的过程使得我们可以使用最大似然估计法推导出损失函数，即交叉熵损失。通过最小化这个损失函数，我们能够优化逻辑回归模型的参数，从而更好地拟合数据。

原文地址：https://blog.csdn.net/libertea/article/details/142826603

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于STM32的智能声音追随小车设计
下一篇：SSD | （一）SSD综述

什么是SQLite？
SQLite是一个进程内的软件库，实现了自给自足的、无服务器的、零配置的、事务性的SQL数据库引擎。它是一个零配置的数据库，这意味着与其他数据库不一样，您不需要在系统中配置。就像其它数据库，SQLit
阅读更多2024-10-12
Redis非关系型数据库操作命令大全
以下是 Redis 的常用操作命令大全，涵盖了键值操作、字符串、哈希、列表、集合、有序集合、发布/订阅、事务等多个方面的操作。
阅读更多2024-10-12
Django替换sqlite默认数据库到mysql的一系列操作
将这部分注释掉：DATABASES = { 'default': { 'ENGINE': 'django.db.backends.sqlite3', 'NAME':
阅读更多2024-10-12
CocosCreator 快速部署 TON 游戏：Web2 游戏如何使用 Ton支付
在本篇文章中，我们将继续探讨如何使用 Cocos Creator 开发 Telegram 游戏，重点介绍如何集成 TON 支付功能。通过这一教程，开发者将学会如何在游戏中接入 TON Connect，
阅读更多2024-10-12
Spring MVC：精通JSON数据返回的几种高效方式
JSON数据返回的几种方式
阅读更多2024-10-12
SpringSecirity（四）——用户退出
因为JWT是无状态的，去中心化的，在服务器端无法清除，服务器一旦进行颁发，就只能等待自动过期才会失效，所以需要redis配合才能完成登录状态的记录。实现思路：登录后在redis中添加一个白名单，把
阅读更多2024-10-12
问卷调查毕设计算机毕业设计投票系统SpringBootSSM框架
在过去的工作中，我们深入进行了系统设计，从技术选型、数据库设计、界面设计到系统架构设计，每一步都力求精细和完善。我们选择了适合的前后端技术和数据库，构建了稳定可靠的基础框架；设计了合理的数据库结构，保
阅读更多2024-10-12
毕业设计_基于SpringBoot+vue的社区博客系统【源码+SQL+教程+可运行】41002
创建数据库，执行./sql/graduation.sql中的脚本，初始化数据库表结构。如果没有清空和数据库：账号/密码: nilbrains/123456。启动方法与上述一致。
阅读更多2024-10-12
Prometheus+Grafana 监控 K8S Ingress-Ningx Controller
Prometheus+Grafana 监控 K8S Ingress-Ningx Controller
阅读更多2024-10-12
Prometheus+Grafana 监控 Kubernetes
Prometheus+Grafana 监控 Kubernetes
阅读更多2024-10-12