自学内容网 自学内容网

多元线性回归分析

介绍:

回归分析是一种强大的统计方法,用于研究变量之间的关系,特别是一个或多个自变量与一个因变量之间的定量关系。

总结就是研究XY之间的相关性的分析

First:相关性:

相关性不代表因果性,

Eg:统计数据表明:游泳死亡人数越高,雪糕卖得越多(游泳死亡人数和雪糕售出量之间呈显著正相关)

可以下结论:吃雪糕就会增加游泳死亡风险吗(因为吃雪糕,所以游泳死亡风险增加了)?

当然不可以,可能这里是因为夏天所以游泳的人和吃雪糕的人多了,但是两者没有因果

SECOND:Y

Y是什么?俗称因变量。取义,因为别人的改变,而改变的变量。

在实际应用中,Y常常是我们需要研究的那个核心变量。

(1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)

(2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0-1型变量)。

(3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢。(定序变量):

(4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)

(5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的年龄为60+,那这种数据就是截断的数据)(生存变量)

THIRD:X

X是用来解释Y的相关变量,所以X被称为自变量,当然,另一套定义方法是:X为解释变量,Y为被解释变量,

回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

例题:下表是1990-2007年中国棉花单产与要素投入的表格,请用回归的方法指出哪个要素投入是最重要的要素?

回归分析的使命

使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)

使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同的相关关系是正的呢,还是负的?

使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

这就是回归分析要完成的三个使命:

第一、识别重要变量;

第二、判断相关性的方向;

第三、要估计权重(回归系数)

回归的分类:

数据的分类;

(1)横截面数据:在某一个时点收集到的不同对象的数据

(2)时间序列数据:对同一个对象在不同时间 连续观察所得

(3)面板数据:横截面数据和时间序列数据的综合

数据的收集:

一元线性回归:

这里的线性假定并不要求初始模型都呈上述的严格线性关系自变量与因变量可通过变量变换而转化成线性模型。

下面的四个例子都可以通过变量替换转换为线性模型

1.数据的预处理

可以使用excel/state/spss进行数据的预处理

回归系数的解释:

定量的解释

假设x是某个产品的评分(1-10),y是我们的销量

我们经过计算得出的是y=3.4+2.3x

那么3.4:当评分为0的时候的销量为3.4,(但是没有实际意义)

2.3:每增加一个单位的评分,我们的平均销量增加2.3

假设我们增加了一个自变量,x2产品的价格

我们得出的是y=5.3+0,.19*x1-1.74*x2

5.3:当评分为0,价格为0的时候的销量为5.4,(但是没有实际意义)

0.19:其他变量不变的清空下,每增加一个单位的评分,我们的平均销量增加0.19

-1.74:其他变量不变的清空下,每增加一个单位的价格,我们的平均销量减少1.74

当我们引入一个价格之后,我们的回归系数的变化特别大

这就是遗漏变量的内生性

(

内生性的探究:

假设我们的模型是

u为无法观测或者和y无关的一些变量的集合,且和所有的自变量x不相关的一个扰动项,这个叫做模型的外生性

如果相关,就存在内生性,会导致回归系数不精准,不满足无偏和一致性

加入有两个变量,但是我们忽略了一个,使用一元的线性回归模型,y=kx+b+u

根据蒙特卡罗模拟,发现k越大,内生性越大

无内生性(noendogeneity)要求所有解释变量均与扰动项不相关,这个假定通常太强,因为解释变量一般很多(比如,5-15个解释变量)且需要保证它们全部外生。

是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量控制变量两类。

核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的致估计(当样本容量无限增大时,收敛于待估计参数的真值)

控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住"那些对被解释变量有影响的遗漏因素。

在实际应用中,我们只要保证核心解释变量与u不相关即可。

)

所以解释的时候也可以只用去重点去解释核心的解释变量

什么时候取对数对我们的变量进行解释?

目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:

(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数,

(2)以年度量的变量,如受教育年限、工作经历等通常不取对数,

(3)比例变量,如失业率、参与率等,两者均可;

(4)变量取值必须是非负数,如果包含0,则可以对y取对数In(1+y);

取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义

四种解释:

一元线性回归的解释

双对称模型:

x半对数模型

y半对数模型

定性的解释

虚拟变量:

5,如果有定性的变量,如何处理:

比如研究性别对工资的影响

这里就要引入虚拟变量去讨论男性和女性

计算出来的

多分类的虚拟变量设置

 这里都是ppt的截图

一般虚拟变量个数是定性变量的个数-1(有一个当作对照组)

含有交互项的自变量:

 

实操:

现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

1)以评价量为因变量,分析其它变量和评价量之间的关系;

2)以评价量为因变量,研究影响评价量的重要因素

State

定量数据进行描述性统计:

Summarize + 变量1---n

对定性数据进行描述性统计:

Tabulate +变量,gen(A)

返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。

对变量进行说明

summarize 团购价元 评价量 商品毛重kg

// 定性变量的频数分布,并得到相应字母开头的虚拟变量

tabulate 配方,gen(A)

tabulate 奶源产地 ,gen(B)

tabulate 国产或进口 ,gen(C)

tabulate 适用年龄岁 ,gen(D)

tabulate 包装单位 ,gen(E)

tabulate 分类 ,gen(F)

tabulate 段位 ,gen(G)

对变量的一些说明

对定量变量进行回归

Regress y x1 x2....

这里的Model==SSR,Residual==SSE,Total==SST

在回归中,我们一般使用调整后的R方

补充:关于拟合优度和调整后的拟合优度:

我们引入的自变量越多,拟合优度会变大。

但我们倾向于使用调整后的拟合优度如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。

F(2,843)是F检验后的量,Prob是p值,这里的原假设是系数全0,这里p=0不接受原假设,所以回归系数不全是0,那么我们可以向下继续回归

原假设是检测βi是否为0

p小于0.05的才是我们关注的,因为这些系数显著的异于0(t检验),

对定性变量进行回归

reg 评价量 G1 G2 G3 G4

这里的G4被被当作了对照组 (多重共线性)

regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4

进行多元线性回归检验

这里的p表示可以接受

这个的解释就可以是coef列的,当其他的变量不变的情况下,xx比xx的平均要xx

eg:F1(分类为牛奶粉的),在其他变量不变的情况下,平均比F2(羊奶粉)高出14894.55的评价量

将表格导出到docx

est store m1

reg2docx m1 using m1.docx, replace

这里的显著性标记

// *** p<0.01  ** p<0.05 * p<0.1

R方低的解决办法

(1)回归分为解释型回归和预测型回归预测型回归一般才会更看重R2解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。

(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。

(3)数据中可能有存在异常值或者数据的分布极度不均匀

标准化回归命令(去除量纲)

regress 评价量 团购价元 商品毛重kg, b

regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1

D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4,b

这里显著的量只有F1和团购价,比较beta的绝对值,发现团购价才是影响评价量的重要因素


原文地址:https://blog.csdn.net/2401_84910613/article/details/145234916

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!