自学内容网 自学内容网

【王木头】最大似然估计、最大后验估计

目录

一、最大似然估计(MLE)

二、最大后验估计(MAP)

三、MLE 和 MAP 的本质区别

四、当先验是均匀分布时,MLE 和 MAP 等价

五、总结


本文理论参考王木头的视频:

贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?_哔哩哔哩_bilibiliicon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from=333.999.0.0&vd_source=ecbdfcacb078d0e3626e61248866cdc7

一、最大似然估计(MLE)

先读文章,里面有最大似然估计的例子和分析。

【王木头·从感知机到神经网络】-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/m0_56997192/article/details/142876334?spm=1001.2014.3001.5502在最大似然估计中,有两个不严谨的地方:

1、在上文抛硬币的例子中,已有结果X,求某先验 \theta _{i} 的概率 P( \theta _{i}|X) ,在计算时我们把P( \theta _{i}|X) 假设为了 P(X|\theta _{i}) ,实际上P( \theta _{i}|X)\neq P(X|\theta _{i}),但我们最大似然确认为他们相等了,我们想要求的是已确定某个结果,哪个先验的情况下概率最大;但我们实际求的是某个先验时发生事件的概率的最大值,

即目的是求      max \ P( \theta _{i}|X)

但实际求的是   max \ P(X| \theta _{i})P(X| \theta _{i})被称为似然值或似然函数,记为L( \theta _{i}|X)

似然函数为:L_{X}(\theta )=L(\theta |X)=P(X|\theta )

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )

想到这,我似乎想到了”似然“两个字的起名原因,我们要解决问题,就要求出P( \theta _{i}|X),但P( \theta _{i}|X)无法直接求出,所以我们选用了一个与 P( \theta _{i}|X)  “ 相似 ” 的 P(X|\theta _{i}),所以P(X|\theta _{i})叫做似然值,“ 相似 ”的对象是 P( \theta _{i}|X)

2、另一个王木头提到的是:

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )中的 \theta 是永远无法确定的,但我们把概率最大的 \theta 跳出来人为规定他就是系统本来就有的属性,这个点我不理解,不过我感觉没什么用。

二、最大后验估计(MAP)

在最大似然估计中,有一个不严谨的地方是让 P( \theta _{i}|X)= P(X|\theta _{i}),实际上他们是不相等的,我们要求的是 P( \theta _{i}|X) 但最大似然估计中求的是最大的 P(X|\theta _{i}) ,最大后验估计解决了这个不严谨的问题。即由贝叶斯公式:

将不能计算的 P( \theta|X) 转化为   

                                                ​​​​​​​        ​​​​​​​        p(\theta | X) = \frac{p(X | \theta) p(\theta)}{p(X)}

其中:

  • p(X | \theta) 是似然函数;
  • p(\theta) 是先验分布;
  • pp(X) 是边际似然(可以视为常数,与优化无关)。

因此,MAP估计的目标可以等价于最大化 p(X | \theta) p(\theta)

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在对数形式下,MAP可以写成:

        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \left( \log p(X|\theta) + \log p(\theta) \right)

最大后验估计MAP的特点:

  • 考虑先验信息:MAP结合了观测数据和参数的先验知识。先验信息通过 p(\theta) 反映了我们对参数可能取值的先验信念。
  • 贝叶斯统计:MAP是贝叶斯估计方法的一种,将参数视为随机变量,通过观测数据更新我们对参数的信念。
  • 适用于小样本数据:MAP可以在样本较少的情况下引入先验信息,提供稳定的估计。

三、MLE 和 MAP 的本质区别

从本质上来说,MLE 和 MAP 的主要区别在于:

  • 先验的使用

    • MLE 只基于数据的似然函数进行参数估计,不考虑任何先验信息。
    • MAP 则通过先验分布 p(\theta) 将先验信息纳入估计中,因此 MAP 是贝叶斯估计的一种。
  • 适用场景的差异

    • MLE 在大样本情况下表现很好,因为在大样本极限下,观测数据对估计的影响远大于先验。
    • MAP 更适合小样本或需要引入先验信息的情况,因为先验可以在样本较少时提供稳定性,避免估计过于依赖有限的观测数据。
  • 计算的差异

    • MLE 的目标是最大化似然函数 p(X|\theta)
    • MAP 的目标是最大化后验概率 p(\theta|X),相当于最大化 p(X|\theta) p(\theta)

四、当先验是均匀分布时,MLE 和 MAP 等价

值得注意的是,如果先验分布 p(\theta) 是均匀的(即假设所有参数值的先验概率相同),则 p(\theta) 是一个常数,这样 MAP 的目标函数就变为:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) \times 常数

在这种情况下,最大化  (p(X|\theta) \times 常数)    等价于最大化 p(X|\theta),因此 MAP 和 MLE 会得到相同的结果。

这意味着,在没有先验或先验均匀的情况下,MAP 退化为 MLE。因此,MAP 可以被视为 MLE 的一种推广,它允许我们在估计中融入先验信息。

五、总结

本质区别在于:

  • 最大似然估计MLE  只依赖数据的似然,不使用先验,是一种频率派的估计方法
  • 最大后验估计MAP  同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法

总结公式

  • 最大似然估计MLE\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} p(X|\theta)
  • 最大后验估计MAP\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。


原文地址:https://blog.csdn.net/m0_56997192/article/details/143670015

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!