回归方法与贝叶斯公式
一、线性回归
1.函数
(1)一元线性函数
只有x一个自变量的线性函数称为一元线性函数,形如
y
=
w
x
+
b
y = wx +b
y=wx+b
(2)多元线性函数
与一元线性函数相对应,有不止x一个自变量的线性函数,形如
y
=
w
1
x
1
+
w
2
x
2
+
w
3
x
3
+
b
y = w_1x_1 + w_2x_2 + w_3x_3 + b
y=w1x1+w2x2+w3x3+b
也可以将w和x用向量的形式表示成如下式子
y
=
w
T
x
i
+
b
y = w^Tx_i + b
y=wTxi+b
其中w与x均为列向量,wT将w转置为行向量。
如果将b放入w中的话需要在x中相应位置填充1,形如
y
=
w
T
x
=
(
w
1
w
2
w
3
⋯
w
d
b
)
∗
(
x
i
1
x
i
2
x
i
3
⋮
x
i
d
1
)
y = w^Tx = {\begin{pmatrix}w_1&w_2&w_3&\cdots&w_d&b\end{pmatrix}}*{\begin{pmatrix}x_{i1}\\x_{i2}\\x_{i3}\\\vdots\\x_{id}\\1\end{pmatrix}}
y=wTx=(w1w2w3⋯wdb)∗
xi1xi2xi3⋮xid1
其中每一个xi1表示的一列是一个包含d个属性的样本。
从空间几何角度理解,可以理解为在b所处的哪一维度上是一个过某个点的平面。
将b合并入w之后,我们将x做变换得到X使得X=xT,也就是X的每一行对应一个d个属性的样本。
X
=
(
x
11
x
12
⋯
x
1
d
1
x
21
x
22
⋯
x
2
d
1
⋮
⋮
⋱
⋮
⋮
x
n
1
x
n
2
⋯
x
n
d
1
)
=
(
x
1
T
1
x
2
T
1
⋮
⋮
x
n
T
1
)
X = {\begin{pmatrix}x_{11}&x_{12}&\cdots&x_{1d}&1\\x_{21}&x_{22}&\cdots&x_{2d}&1\\\vdots&\vdots&\ddots&\vdots&\vdots\\x_{n1}&x_{n2}&\cdots&x_{nd}&1\\\end{pmatrix}} = {\begin{pmatrix}x_1^T&1\\x_2^T&1\\\vdots&\vdots\\x_n^T&1\\\end{pmatrix}}
X=
x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1dx2d⋮xnd11⋮1
=
x1Tx2T⋮xnT11⋮1
则我们的均方误差式子将类别标签y也写成y = (y1;y2;y3;…;yn),则可变形为
E
(
w
)
=
a
r
g
m
i
n
(
w
)
(
y
i
−
w
T
x
i
)
2
=
a
r
g
m
i
n
(
w
)
(
y
−
X
w
)
2
=
a
r
g
m
i
n
(
w
)
(
y
−
X
w
)
T
(
y
−
X
w
)
E(w) = argmin_{(w)}(y_i - w^Tx_i)^2 = argmin_{(w)}(y - Xw)^2 = argmin_{(w)}(y - Xw)^T(y - Xw)
E(w)=argmin(w)(yi−wTxi)2=argmin(w)(y−Xw)2=argmin(w)(y−Xw)T(y−Xw)
此时令E(w)求偏导等于0可以化简得到
∂
E
w
∂
w
=
2
X
T
(
X
w
−
y
)
\frac{\partial E_w}{\partial w} = 2 X^T(Xw - y)
∂w∂Ew=2XT(Xw−y)
假设XTX满秩(可逆)的时候,可以最终得到
w
∗
=
(
X
T
X
)
−
1
X
T
y
w^* = (X^TX)^{-1}X^Ty
w∗=(XTX)−1XTy
此时的线性回归方程可变为
y
i
=
x
i
T
(
X
T
X
)
−
1
X
T
y
y_i = x_i^T(X^TX)^{-1}X^Ty
yi=xiT(XTX)−1XTy
如果对于多元线性回归xn*d,当n>d以及n<d时分别对应的是不同的场景,形如
- 若n>d,则样本>属性数,例如大数据,样本多但是特征少
- 此时XTX得到一个p*p的小方阵。
- 由于n>d在方程组中的含义是方程数量大于未知数数量,所以容易产生无解。
- 若n<d,则样本数<属性数,例如图像问题,图像少,但是图像中的像素特征非常多
- 此时XTX得到一个大方阵
- 由于n<d在方程组中的含义是方程数量小于未知数数量,所以容易产生任意多解。
2.策略(代价函数/损失函数)
(1)从几何角度
可以使用均方误差(欧氏距离)来表示预测值与真实值之间的差距,形如
E
(
w
,
b
)
=
∑
i
=
1
i
=
n
(
y
i
−
f
(
x
i
)
)
2
=
∑
i
=
1
i
=
n
(
y
i
−
(
w
x
i
+
b
)
)
2
=
∑
i
=
1
i
=
n
(
y
i
−
w
x
i
−
b
)
2
E_{(w,b)} = \sum_{i=1}^{i=n}(y_i - f(x_i))^2 = \sum_{i=1}^{i=n}(y_i - (wx_i + b))^2 = \sum_{i=1}^{i=n}(y_i - wx_i - b)^2
E(w,b)=i=1∑i=n(yi−f(xi))2=i=1∑i=n(yi−(wxi+b))2=i=1∑i=n(yi−wxi−b)2
(2)从概率角度
基于极大似然估计的思想,假设所有样本均服从独立同分布,我们从线性的函数中抽样(假设服从正态分布),似然函数形如
L
(
μ
,
σ
2
)
=
∏
i
=
1
n
p
(
x
i
;
μ
,
σ
2
)
=
∏
i
=
1
n
1
2
π
σ
e
x
p
(
−
(
x
i
−
μ
)
2
2
σ
2
)
L(\mu,\sigma^2) = \prod_{i=1}^{n}p(x_i;\mu,\sigma^2) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2})
L(μ,σ2)=i=1∏np(xi;μ,σ2)=i=1∏n2πσ1exp(−2σ2(xi−μ)2)
由于对于计算机来说概率的累乘是一个很小的数,容易超出计算机的计算范围造成下溢,所以使用对数似然函数的形式将乘法变成加法,形如
ln
L
(
μ
,
σ
2
)
=
ln
∏
i
=
1
n
p
(
x
i
;
μ
,
σ
2
)
=
ln
∏
i
=
1
n
1
2
π
σ
e
x
p
(
−
(
x
i
−
μ
)
2
2
σ
2
)
=
∑
i
=
1
n
ln
1
2
π
σ
e
x
p
(
−
(
x
i
−
μ
)
2
2
σ
2
)
\ln{L(\mu,\sigma^2)} = \ln\prod_{i=1}^{n}p(x_i;\mu,\sigma^2) = \ln\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2})=\sum_{i=1}^{n}\ln\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2})
lnL(μ,σ2)=lni=1∏np(xi;μ,σ2)=lni=1∏n2πσ1exp(−2σ2(xi−μ)2)=i=1∑nln2πσ1exp(−2σ2(xi−μ)2)
(3)引入高斯噪声
并且当我们对线性回归模型引入服从均值为0的正态分布的随机误差,ϵ ~ N(0, σ2),也叫高斯噪声后,将ϵ用y - (wx + b)等价代换可以得到
p
(
y
)
=
1
2
π
σ
e
x
p
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
p(y) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y - (wx + b))^2}{2\sigma^2})
p(y)=2πσ1exp(−2σ2(y−(wx+b))2)
同理取对数似然,再化简可以得到
ln
L
(
w
,
b
)
=
∑
i
=
1
n
ln
1
2
π
σ
e
x
p
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
=
n
ln
∑
i
=
1
n
1
2
π
σ
−
1
2
σ
2
∑
i
=
1
n
(
y
i
−
w
x
i
−
b
)
2
\ln{L(w,b)} =\sum_{i=1}^{n}\ln\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y - (wx + b))^2}{2\sigma^2}) = n\ln\sum_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i -wx_i -b)^2
lnL(w,b)=i=1∑nln2πσ1exp(−2σ2(y−(wx+b))2)=nlni=1∑n2πσ1−2σ21i=1∑n(yi−wxi−b)2
由于前一项中σ,π,n均为常数,所以最大化L(w.b)也就是最小化后一项,即
a
r
g
m
a
x
(
w
,
b
)
ln
L
(
w
,
b
)
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
n
(
y
i
−
w
x
i
−
b
)
2
argmax_{(w,b)}\ln{L(w,b)} = argmin_{(w,b)}\sum_{i=1}^{n}(y_i -wx_i -b)^2
argmax(w,b)lnL(w,b)=argmin(w,b)i=1∑n(yi−wxi−b)2
也就是最小二乘法的式子。
其实我们能够从添加了服从正态分布的高斯噪声的似然函数中等价到最小二乘法纯属是偶然发现,并不是什么数学规律,同理我们也能够在支持向量机SVM中发现逻辑回归的身影。
3.优化
(1)凸函数
顾名思义就是在图形中任取两点做弦,都在下方的函数就是凸函数。
如果一个函数是凸函数,那么根据凸函数充分性定理可知:若f(x)是凸函数,且一阶连续可微,则 是全局解的充分必要条件是∇f(x) = 0。所以,∇E(w,b) = 0 的点即为最小值点,即
∇
E
(
w
,
b
)
=
[
∂
E
(
w
,
b
)
∂
w
∂
E
(
w
,
b
)
∂
b
]
=
[
0
0
]
∇E_{(w,b)} ={\begin{bmatrix}\frac{\partial E_{(w,b)}}{\partial w}\\\frac{\partial E_{(w,b)}}{\partial b}\end{bmatrix}} = {\begin{bmatrix}0\\0\end{bmatrix}}
∇E(w,b)=[∂w∂E(w,b)∂b∂E(w,b)]=[00]
二、逻辑回归
1.函数
(1)对数几率回归
对于简单的线性回归模型y = wTx +b,我们引入对数的思想将其变为lny = wTx + b,也就是让ewTx + b去逼近y。
即,实现了将一个简单的线性的回归变成一个非线性的回归。
而对数几率回归的目的是在分类任务中使用回归学习,例如,二分类问题中通过回归我们可以得到预测值的数值,然后根据预测值的正负来判别所属类别。
单位阶跃函数形如,其中z = wTx + b ,y是预测类别。
y
=
{
0
,
z
<
0
0.5
,
z
=
0
1
,
z
>
0
y = \left\{ \begin{array}{c} 0,z<0 \\ 0.5,z=0 \\ 1,z>0 \end{array} \right.
y=⎩
⎨
⎧0,z<00.5,z=01,z>0
但是由于单位阶跃函数不是连续可微的,所以我们使用接近单位阶跃函数同时单调并且连续可微的对数几率函数来做替代,形如
y
=
1
1
+
e
−
z
=
1
1
+
e
−
(
w
T
x
+
b
)
y = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(w^Tx+b)}}
y=1+e−z1=1+e−(wTx+b)1
如果我们对于两边做变换可以得到,形如
ln
y
1
−
y
=
w
T
x
+
b
\ln\frac{y}{1-y} = w^Tx + b
ln1−yy=wTx+b
同时就可以得到几率以及对数几率的概念
y
1
−
y
与
ln
y
1
−
y
\frac{y}{1-y} 与\ln\frac{y}{1-y}
1−yy与ln1−yy
2.策略(代价函数/损失函数)
(1)伯努利分布
首先我们知道在对数几率函数中我们使用的是
ln
y
1
−
y
=
w
T
x
+
b
\ln\frac{y}{1-y} = w^Tx + b
ln1−yy=wTx+b
所以当使用后验概率的思想将概率引入函数有
ln
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
\ln \frac{p(y = 1| x)}{p(y = 0| x)} = w^Tx+b
lnp(y=0∣x)p(y=1∣x)=wTx+b
显然我们通过式子变形可以得到
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y = 1 | x) = \frac{e^{w^Tx + b}}{1 + e^{w^Tx + b}}
p(y=1∣x)=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 1 + e w T x + b p(y = 0 | x) = \frac{1}{1 + e^{w^Tx + b}} p(y=0∣x)=1+ewTx+b1
即,二分类问题其实就是伯努利分布问题
p
(
y
=
1
∣
x
)
=
1
−
p
(
y
=
0
∣
x
)
p(y = 1 | x) = 1 - p(y = 0 | x)
p(y=1∣x)=1−p(y=0∣x)
(2)极大似然法
当我们得到了模型(函数)之后,我们下一步就是要去定义含参数式子的损失函数,为下一步优化参数寻找最优模型做准备,我们用极大似然的方法来定义含参数的损失函数,形如
l
(
w
,
b
)
=
∑
i
=
1
n
ln
p
(
y
i
∣
x
i
;
w
,
b
)
l(w,b) = \sum_{i=1}^{n}\ln{p(y_i|x_i;w,b)}
l(w,b)=i=1∑nlnp(yi∣xi;w,b)
如之前第一部分线性回归,w与x向量表示所说,我们将b放入w中,同时在x中的对应位置补1,形如
y
=
w
T
x
y = w^Tx
y=wTx
如果二分类中,类别yi∈{0,1},那么上式中的概率就可以变形成下式所示,yi=1则为p1,yi=0则为p0
p
(
y
i
∣
x
i
;
w
,
b
)
=
y
i
p
1
(
x
i
;
w
)
+
(
1
−
y
i
)
p
0
(
x
i
;
w
)
p(y_i|x_i;w,b) =y_ip_1(x_i;w)+(1-y_i)p_0(x_i;w)
p(yi∣xi;w,b)=yip1(xi;w)+(1−yi)p0(xi;w)
同时将后验概率的式子带入损失函数可得
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y = 1 | x) = \frac{e^{w^Tx + b}}{1 + e^{w^Tx + b}}
p(y=1∣x)=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 1 + e w T x + b p(y = 0 | x) = \frac{1}{1 + e^{w^Tx + b}} p(y=0∣x)=1+ewTx+b1
l ( w , b ) = ∑ i = 1 n ( − y i w T x i + ln ( 1 + e w T x i ) ) l(w,b) = \sum_{i=1}^{n}(-y_iw^Tx_i + \ln(1+e^{w^Tx_i})) l(w,b)=i=1∑n(−yiwTxi+ln(1+ewTxi))
3.优化
(1)牛顿法
计算速度非常快,但是涉及到二阶导数,计算复杂度非常高
(2)梯度下降法
计算速度不快,但是计算复杂度相对来说低,可以应用在大多数场景中
三、贝叶斯
1.函数
(1)条件概率
以一个多分类任务为例:假设当前有一个N分类问题,即γ= {c1, c2,…, c N }
条件概率:
P
(
c
∣
x
)
=
P
(
x
,
c
)
P
(
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
P(c | x) = \frac{P(x,c)}{P(x)} = \frac{P(c)P(x | c)}{P(x)}
P(c∣x)=P(x)P(x,c)=P(x)P(c)P(x∣c)
(1)先验概率
P ©为先验概率,也就是基于已知的类别判断新的样本属于哪一个类别。
(2)后验概率
P (c ∣x)为后验概率,也就是基于训练样本判断出样本所属类别。这部分也是我们最终所要得到的部分,所以将他留在等式左边。
(2)全概率公式
如图所示P(A)可由A在B中的每一部分累加得到即
P
(
A
)
=
P
(
A
,
B
1
)
+
P
(
A
,
B
2
)
+
.
.
.
+
P
(
A
,
B
n
)
=
∑
i
=
1
n
P
(
A
,
B
i
)
P(A) = P(A,B_1)+P(A,B_2)+...+P(A,B_n) = \sum_{i=1}^{n}P(A,B_i)
P(A)=P(A,B1)+P(A,B2)+...+P(A,Bn)=i=1∑nP(A,Bi)
如果用条件概率来表示全概率公式的话可以表示为
P
(
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
+
.
.
.
+
P
(
A
∣
B
n
)
P
(
B
n
)
=
∑
i
=
1
n
P
(
A
,
B
i
)
P
(
B
i
)
P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n) = \sum_{i=1}^{n}P(A,B_i)P(B_i)
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)=i=1∑nP(A,Bi)P(Bi)
(3)贝叶斯公式
有了全概率公式的概念,那么我们求解条件概率的时候引入全概率公式则有
P
(
B
i
∣
A
)
=
P
(
A
,
B
i
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
,
B
j
)
P
(
B
j
)
P(B_i | A) = \frac{P(A,B_i)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A,B_j)P(B_j)}
P(Bi∣A)=P(A)P(A,Bi)=∑j=1nP(A,Bj)P(Bj)P(A∣Bi)P(Bi)
2.策略(代价函数/损失函数)
3.优化
2023.1.30贝叶斯知识点
-
贝叶斯公式中的cj
-
生成式、判别式
-
判别式:直接根据某一些属性得出结论
-
贝叶斯:研究联合概率(先验与似然(类条件概率密度)的乘积)
-
贝叶斯:分而治之(已知类别了)
-
朴素贝叶斯:更加分而治之了
-
其实机器学习在贝叶斯的环境下就是绕了一步,从判别式到生成式了
-
朴素贝叶斯的优点:有稳定的分类效率,对小规模数据集表现很好,适合增量式学习。缺点是:在属性个数比较多或者属性之间相关性较大的时候分类效果比较好,而且需要知道先验概率,且先验概率很多时候取决于假设。
-
半朴素贝叶斯:基于被也是公式的一些其他的变化(也是个方向,就是比较老了,能研究的都研究差不多了)
找论文:在当前领域的顶级会议(搜多了也就那三五个顶级),而且每年都有总结的网站,思考那些领域自己设计的到,比如怎么进行图像分割,怎么看图说话,怎么走出来一个文章书写摘要。
都是基于机器学习而高于机器学习。
原文地址:https://blog.csdn.net/weixin_52836217/article/details/144160461
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!