自学内容网 自学内容网

【概率统计通俗版】极大似然估计


作者:小猪快跑

基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法

Maximum Likelihood Estimation(MLE),一般称之为极大似然估计 / 最大似然估计。利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑

相关教程

相关文献

例子1

箱子甲:99 个白球和 1 个黑球

箱子乙:99 个黑球和 1 个白球

随机选个箱子,并从中随机取 1 个球。结果取得白球,问这球是从哪一个箱子中取出?

白球黑球
991
199

直观感受来说,从箱子甲里面抽到白球的概率高。

不管是哪一个箱子,从箱子中任取一球都有两个可能的结果: A A A 表示取出白球, B B B 表示取出黑球。如果我们取出的是甲箱,则 A A A 发生的概率为 0.99,而如果取出的是乙箱,则 A A A 发生的概率为 0.01。现在一次试验中结果 A A A 发生了,人们的第一印象就是: “此白球 ( A ) (A) (A) 最像从甲箱取出的”,或者说,应该认为试验条件对结果 A A A 出现有利,从而可以推断这球是从甲箱中取出的。这个推断很符合人们的经验事实,这里 “最像” 就是 “最大似然” 之意。

例子2

从箱子里随机取出 5 个球,分别为 白、白、黑、白、黑,根据这个结果估计箱子白球和黑球的比例。

白球黑球概率
1 ✓ \checkmark p p p
2 ✓ \checkmark p p p
3 ✓ \checkmark 1 − p 1 - p 1p
4 ✓ \checkmark p p p
5 ✓ \checkmark 1 − p 1 - p 1p

设白球比例是 p p p,则黑球比例就是 1 − p 1 − p 1p,随机变量为 X X X

5 个球的概率分别是 p 、 p 、 1 − p 、 p 、 1 − p p 、p 、1 - p 、p 、1 - p pp1pp1p

这个结果发生的概率(似然函数): L ( p ) = p ⋅ p ⋅ ( 1 − p ) ⋅ p ⋅ ( 1 − p ) = p 3 ( 1 − p ) 2 L(p)=p\cdot p\cdot(1-p)\cdot p\cdot(1-p)=p^{3}(1-p)^{2} L(p)=pp(1p)p(1p)=p3(1p)2

极大似然估计的思想就是最大化发生的概率。于是我们只要求似然函数的最大值即可(求导=0)。

由于似然函数是乘积形式,不容易求导。因此先求对数(对数似然函数):
ln ⁡ L ( p ) = 3 ln ⁡ p + 2 ln ⁡ ( 1 − p ) \ln{L(p)}=3\ln p+2\ln(1-p) lnL(p)=3lnp+2ln(1p)
再求导=0:
∂ ln ⁡ L ( p ) ∂ p = 3 p − 2 1 − p = 0 \frac{\partial\ln L(p)}{\partial p} = \frac{3}{p} - \frac{2}{1-p} = 0 plnL(p)=p31p2=0
于是 p = 3 5 p = \frac{3}{5} p=53

注:这里对数似然函数是凹函数,凹函数的唯一驻点必是最大值。

定义

设总体的概率函数为 p ( x ; θ ) p(x;\theta) p(x;θ) θ ∈ Θ \theta\in\Theta θΘ,其中 θ \theta θ 是一个未知参数或几个未知参数组成的参数向量, Θ \Theta Θ 是参数空间, x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn 是来自该总体的样本,将样本的联合概率函数看成 θ \theta θ 的函数,用 L ( θ ; x 1 , ⋯   , x n ) L(\theta;x_1,\cdots,x_n) L(θ;x1,,xn) 表示,简记为 L ( θ ) L(\theta) L(θ)
L ( θ ) = L ( θ ; x 1 , ⋯   , x n ) = p ( x 1 ; θ ) ⋅ p ( x 2 ; θ ) ⋅ ⋯ ⋅ p ( x n ; θ ) L(\theta)=L(\theta;x_1,\cdots,x_n)=p(x_1;\theta)\cdot p(x_2;\theta)\cdot \cdots \cdot p(x_n;\theta) L(θ)=L(θ;x1,,xn)=p(x1;θ)p(x2;θ)p(xn;θ)
L ( θ ) L(\theta) L(θ) 称为样本的似然函数。如果某统计量 θ ^ = θ ^ ( x 1 , ⋯   , x n ) \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n) θ^=θ^(x1,,xn) 满足
L ( θ ^ ) = max ⁡ θ ∈ Θ L ( θ ) L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta) L(θ^)=θΘmaxL(θ)
则称 θ ^ \hat{\theta} θ^ θ \theta θ​ 的最大似然估计,简记为 MLE(Maximum Likelihood Estimate)

由于 ln ⁡ x \ln x lnx x x x 的单调增函数,因此,使对数似然函数 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 达到最大与使 L ( θ ) L(\theta) L(θ) 达到最大是等价的。人们通常更习惯于由 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 出发寻找 θ \theta θ 的最大似然估计。当 L ( θ ) L(\theta) L(θ) 是可微函数时,求导是求最大似然估计最常用的方法,此时对对数似然函数求导更加简单些。

0-1分布

0-1分布,也称为伯努利分布(Bernoulli distribution),是描述一次试验中只有两种可能结果的离散概率分布。这两个结果通常标记为成功(记为1)和失败(记为0)。如果成功的概率是 p p p 0 < p < 1 0 < p < 1 0<p<1),那么失败的概率就是 1 − p 1-p 1p

给定一组独立同分布的观测数据 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn,每个 X i X_i Xi 都是从伯努利分布中抽取的样本,取值为0或1。我们要找的是参数 p p p 的最大似然估计 p ^ \hat{p} p^

似然函数 L ( p ) L(p) L(p) 是所有观测数据出现概率的乘积:

L ( p ) = ∏ i = 1 n p X i ( 1 − p ) 1 − X i L(p) = \prod_{i=1}^{n} p^{X_i} (1-p)^{1-X_i} L(p)=i=1npXi(1p)1Xi

为了简化计算,我们通常使用对数似然函数:

log ⁡ L ( p ) = ∑ i = 1 n [ X i log ⁡ p + ( 1 − X i ) log ⁡ ( 1 − p ) ] \log L(p) = \sum_{i=1}^{n} [X_i \log p + (1 - X_i) \log (1-p)] logL(p)=i=1n[Xilogp+(1Xi)log(1p)]

接下来,我们通过对 p p p 求导来找到使得对数似然函数最大的 p p p 值:

∂ log ⁡ L ( p ) ∂ p = ∑ i = 1 n ( X i p − 1 − X i 1 − p ) \frac{\partial \log L(p)}{\partial p} = \sum_{i=1}^{n} \left( \frac{X_i}{p} - \frac{1 - X_i}{1-p} \right) plogL(p)=i=1n(pXi1p1Xi)

令导数等于0以找到极大值点:

∑ i = 1 n ( X i p − 1 − X i 1 − p ) = 0 \sum_{i=1}^{n} \left( \frac{X_i}{p} - \frac{1 - X_i}{1-p} \right) = 0 i=1n(pXi1p1Xi)=0

整理后得到:

∑ i = 1 n X i p = n − ∑ i = 1 n X i 1 − p \frac{\sum_{i=1}^{n} X_i}{p} = \frac{n - \sum_{i=1}^{n} X_i}{1-p} pi=1nXi=1pni=1nXi

解这个方程可以得到 p p p 的最大似然估计 p ^ \hat{p} p^

p ^ = ∑ i = 1 n X i n \hat{p} = \frac{\sum_{i=1}^{n} X_i}{n} p^=ni=1nXi

这意味着参数 p p p 的最大似然估计 p ^ \hat{p} p^ 就是所有观测到的成功次数之和除以总的观测次数。换句话说, p ^ \hat{p} p^ 是样本中成功事件的比例。

二项分布

二项分布是一种离散概率分布,用于描述在n次独立的伯努利试验中成功次数的概率分布。假设每次试验成功的概率为p(0 < p < 1),那么在n次试验中恰好有k次成功的概率可以表示为:

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1p)nk

其中, ( n k ) \binom{n}{k} (kn) 是组合数,表示从n个不同元素中选取k个元素的方式数。

对于二项分布来说,如果我们有一系列的观测数据 X 1 , X 2 , . . . , X m X_1, X_2, ..., X_m X1,X2,...,Xm,每个 X i X_i Xi都代表了n次试验中的成功次数,并且我们假设这些观测都是独立同分布的,那么似然函数L§可以写作:

L ( p ) = ∏ i = 1 m ( n X i ) p X i ( 1 − p ) n − X i L(p) = \prod_{i=1}^{m} \binom{n}{X_i} p^{X_i} (1-p)^{n-X_i} L(p)=i=1m(Xin)pXi(1p)nXi

因为组合数 ( n X i ) \binom{n}{X_i} (Xin)不依赖于参数p,所以在求最大似然估计时可以忽略它。因此对数似然函数简化为:

log ⁡ L ( p ) = ∑ i = 1 m [ X i log ⁡ p + ( n − X i ) log ⁡ ( 1 − p ) ] \log L(p) = \sum_{i=1}^{m} [X_i \log p + (n - X_i) \log (1-p)] logL(p)=i=1m[Xilogp+(nXi)log(1p)]

为了找到使这个对数似然函数最大化的p值,我们需要对p求导并令其等于零:

∂ log ⁡ L ( p ) ∂ p = ∑ i = 1 m ( X i p − n − X i 1 − p ) = 0 \frac{\partial \log L(p)}{\partial p} = \sum_{i=1}^{m} \left( \frac{X_i}{p} - \frac{n - X_i}{1-p} \right) = 0 plogL(p)=i=1m(pXi1pnXi)=0

解这个方程,我们可以得到p的最大似然估计 p ^ \hat{p} p^

p ^ = ∑ i = 1 m X i m n \hat{p} = \frac{\sum_{i=1}^{m} X_i}{mn} p^=mni=1mXi

这意味着,如果进行了m组每组n次的试验,总共的成功次数除以总的试验次数,就得到了成功概率p的最大似然估计。简单地说,就是所有观测到的成功次数总和除以总的试验次数。


原文地址:https://blog.csdn.net/ymzhu385/article/details/143858407

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!