R语言基础| 方差分析
写在前面
方差分析(ANOVA,Analysis of Variance)是统计学中一种用来比较三个或三个以上样本均值是否存在显著差异的方法。方差分析基于样本数据的方差来判断整体均值之间的差异,是处理多个样本组数据对比问题的常用技术。
方差分析的基本思想是分析数据的总变异,将其分解为组间变异和组内变异。组间变异指的是不同组(或处理)之间的数据变异,反映了不同处理之间可能的效果差异;组内变异则指的是同一组内部数据的变异,反映了随机误差的大小。方差分析的核心在于比较这两种变异:
如果组间变异显著大于组内变异,那么我们可以认为不同组之间存在显著差异。如果组间变异和组内变异相当,那么我们则认为不同组之间没有显著差异。
方差分析的类型主要包括:
单因素方差分析(One-way ANOVA):只有一个因素(或自变量)的方差分析。用于比较两个或多个样本组(各组由单一因素的不同水平组成)的均值是否有显著差异。
双因素方差分析(Two-way ANOVA):涉及两个因素的方差分析。这种分析不仅可以检查每个因素的效应,还可以检查因素之间是否存在交互作用。
多因素方差分析:涉及两个以上因素的方差分析,用于复杂的实验设计中,可以同时考虑多个因素及其交互作用对结果的影响。
方差分析的应用非常广泛,包括医学、生物学、工程学、社会科学等领域,是研究各种因素对结果变量影响的重要工具。在使用方差分析时,通常需要满足一些假设条件,如数据的独立性、正态性和方差齐性,这些条件的不满足可能需要通过转换数据或使用非参数方法来解决。
9.1 术语
方差分析主要通过F检验来进行效果测评,若F检验显著,则说明组建均值不同。
因子factor:名义变量(性别,省份,职业,分型)和顺序变量(班级、名次、病情)
均衡设计balanced design:组间的观测值相等,例如:A组和B组的n=10。
非均衡设计unbalanced design:组间的观测值不相等,例如:A组n=10,B组的n=12。
单因素组间方差分析one-way ANOVA:仅有一个分类变量,例如:CBT疗法组和EMDR疗法组。
单因素组内方差分析one-way within-groups ANOVA:例如将时间作为分类变量,观察CBT疗法治疗5周和6个月的差异。由于每个受试者都不止一次被测量,也称为重复测量方差分析repeated measures ANOVA。
因素方差分析factorial ANOVA:设计包含大于等于2个因子;包含2个因子即双因素方差分析,包含3个因子即三因素方差分析。
混合模型方差分析mixed-model ANVOA:因子设计既包含组内因子又包含组间因子。
干扰变量:例如焦虑症测评的受试者本身患有抑郁症,而抑郁症对焦虑症会有影响,因此被称为干扰变量。
协方差分析ANCOVA:当设计包含干扰变量,干扰变量则为协变量,该方差分析则称为协方差分析。
多元方差分析MANOVA:因变量不止一个。
多元协方差分析MANCOVA:有协变量存在时的多元方差分析。
9.2 ANOVA模型拟合
9.2.1 aov()函数
语法:
aov(formula,data = dataframe)
值得注意的是在方差分析aov函数中与lm函数有所不同,aov函数中大写字母表示变量,小写字母表示协变量,且顺序非常重要。
常见实验设计的表达式:
注意:
当1)因子不止一个且为非平衡设计时;2)存在协变量时,出现任意一种情况时,方程右边的变量都与其他每个变量有关,右边的顺序会造成影响。
9.2.2 表达式中各项顺序
当自变量与其他的变量或者协变量相关时,没有明确的方法可以评价自变量对因变量的贡献。
例如,含因子A B和因变量y的双因素不平衡因子设计,有3种效应:A本身的主效应,B本身的主效应以及两者的交互效应。
假设用y~A+B+A:B对数据进行建模,有3种类型的方法可以分解方程右边各效应对y所解释的方差。
类型1(序贯型)
效应根据表达式中各效应出现的顺序做调整。A不做调整,B根据A调整,A:B交互项根据A和B调整。
类型2(分层型)
效应根据同水平或低水平的效应做调整。A根据B调整,B根据A调整,A:B交互项同时根据A和B调整。
类型3(边界型)
每个效应根据模型其他各效应做相应调整。A根据B和A:B做调整,B根据A和A:B做调整,A:B交互项根据A和B调整。
R默认使用类型1(因此顺序很重要),其他如SPSS和SAS默认类型3。
针对R,样本量越不平衡,效应项的顺序越重要。一般来说,越基础性的效应越放在前面。即协变量-主效应-双因素的交互项-三因素的交互项。以此类推,具体例如:性别需要放在处理方式的前面。
9.3 单因素方差分析
单因素方差分析中关注比较分类因子定义的两个或多个组别中的因变量均值。
举例:
multcomp包中的cholesterol数据集,50位胆固醇患者分为5组,分别接受5种疗法的其中一种,其中3组使用的疗法药物相同,剂量不同,剩下的2种代表候选药物。问:哪种药物疗法对胆固醇的下降量(因变量)贡献最大?
library(multcomp)
## Warning: 程辑包'multcomp'是用R版本4.3.2 来建造的
## 载入需要的程辑包:mvtnorm
## Warning: 程辑包'mvtnorm'是用R版本4.3.2 来建造的
## 载入需要的程辑包:survival
## 载入需要的程辑包:TH.data
## Warning: 程辑包'TH.data'是用R版本4.3.2 来建造的
##
## 载入程辑包:'TH.data'
## The following object is masked from 'package:MASS':
##
## geyser
cholesterol
## trt response
## 1 1time 3.8612
## 2 1time 10.3868
## 3 1time 5.9059
## 4 1time 3.0609
## 5 1time 7.7204
## 6 1time 2.7139
## 7 1time 4.9243
## 8 1time 2.3039
## 9 1time 7.5301
## 10 1time 9.4123
## 11 2times 10.3993
## 12 2times 8.6027
## 13 2times 13.6320
## 14 2times 3.5054
## 15 2times 7.7703
## 16 2times 8.6266
## 17 2times 9.2274
## 18 2times 6.3159
## 19 2times 15.8258
## 20 2times 8.3443
## 21 4times 13.9621
## 22 4times 13.9606
## 23 4times 13.9176
## 24 4times 8.0534
## 25 4times 11.0432
## 26 4times 12.3692
## 27 4times 10.3921
## 28 4times 9.0286
## 29 4times 12.8416
## 30 4times 18.1794
## 31 drugD 16.9819
## 32 drugD 15.4576
## 33 drugD 19.9793
## 34 drugD 14.7389
## 35 drugD 13.5850
## 36 drugD 10.8648
## 37 drugD 17.5897
## 38 drugD 8.8194
## 39 drugD 17.9635
## 40 drugD 17.6316
## 41 drugE 21.5119
## 42 drugE 27.2445
## 43 drugE 20.5199
## 44 drugE 15.7707
## 45 drugE 22.8850
## 46 drugE 23.9527
## 47 drugE 21.5925
## 48 drugE 18.3058
## 49 drugE 20.3851
## 50 drugE 17.3071
library(dplyr)
plotdata <- cholesterol%>%
group_by(trt)%>%
summarise(n=n(),
mean=mean(response),
sd=sd(response),
ci=qt(0.975,df=n-1*sd/sqrt(n)))
plotdata
## # A tibble: 5 × 5
## trt n mean sd ci
## <fct> <int> <dbl> <dbl> <dbl>
## 1 1time 10 5.78 2.88 2.26
## 2 2times 10 9.22 3.48 2.27
## 3 4times 10 12.4 2.92 2.26
## 4 drugD 10 15.4 3.45 2.27
## 5 drugE 10 20.9 3.35 2.26
注:ci是用来计算置信区间(Confidence Interval)的值。
公式即是ci=qt(0.975,df=n-1*sd/sqrt(n))
其中:
qt(0.975, df = n - 1) 是t分布的上分位数,具体取决于给定的置信水平。在这里,使用了0.975,表示95%的置信水平(两侧置信区间)。
n 是样本大小(分组内的观测数量)。
sd 是响应变量(cholesterol)的标准差。
sqrt(n) 是样本大小的平方根。
fit <- aov(response~trt,cholesterol)
summary(fit)
## Df Sum Sq Mean Sq F value Pr(>F)
## trt 4 1351.4 337.8 32.43 9.82e-13 ***
## Residuals 45 468.8 10.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
结果显示F value Pr(>F) <0.001,说明5种疗法的效果不同。
图片看一下:
library(ggplot2)
ggplot(plotdata,
aes(x=trt,y=mean,group=1))+
geom_point(size=3,color="red")+
geom_line(linetype="dashed",color="darkgrey")+
geom_errorbar(aes(ymin=mean-ci,
ymax=mean+ci),
width=0.1)+
theme_bw()+
labs(x="Treatment",
y="Response",
title="Mean Plot with 95% confidence interval")
9.3.1 多重比较
上述内容可以知道5种药物疗法效果不同,但具体某种疗法与其他疗法效果如何不同并不知道,可以用多重比较解决。
9.3.1.1 TukeyHSD()函数进行成对组间比较
TukeyHSD()函数是R语言中用于执行Tukey’s Honestly Significant Difference(HSD)检验的函数。HSD检验是一种多重比较方法,用于比较多个组之间的均值差异。
TukeyHSD()函数通常与ANOVA一起使用,用于在拒绝原假设(组均值相等)后,进行多个组均值之间的两两比较。
语法:
TukeyHSD(aov_model, "factor_variable")
aov_model是已经进行了ANOVA分析的模型对象,可以使用aov()函数创建该模型对象;
“factor_variable”是要进行比较的因子变量,表示要比较哪个因子的水平之间的均值差异。
举例:
pairwise <- TukeyHSD(fit, "trt")
pairwise
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = response ~ trt, data = cholesterol)
##
## $trt
## diff lwr upr p adj
## 2times-1time 3.44300 -0.6582817 7.544282 0.1380949
## 4times-1time 6.59281 2.4915283 10.694092 0.0003542
## drugD-1time 9.57920 5.4779183 13.680482 0.0000003
## drugE-1time 15.16555 11.0642683 19.266832 0.0000000
## 4times-2times 3.14981 -0.9514717 7.251092 0.2050382
## drugD-2times 6.13620 2.0349183 10.237482 0.0009611
## drugE-2times 11.72255 7.6212683 15.823832 0.0000000
## drugD-4times 2.98639 -1.1148917 7.087672 0.2512446
## drugE-4times 8.57274 4.4714583 12.674022 0.0000037
## drugE-drugD 5.58635 1.4850683 9.687632 0.0030633
结果注释:
1.diff:代表组之间的均值差异估计值。它表示两个组之间的平均值之差,通常是后一个组减去前一个组的均值。
2.lwr:代表均值差异的下界(lower bound)。它是置信区间的下限,给出了均值差异的最小可能值。
3.upr:代表均值差异的上界(upper bound)。它是置信区间的上限,给出了均值差异的最大可能值。
这些下界和上界值可以用于构建置信区间,用于比较组之间的均值差异。
如果两个组的均值差异的置信区间不包含0,那么可以认为这两个组的均值是显著不同的。
4.P adj:代表经过多重比较校正的调整后的p值。在进行多重比较时,原始的p值可能会受到”多重比较问题”(multiple comparison problem)的影响。为了控制错误发现率,通常会对原始的p值进行校正。P adj列中的值是经过校正后的p值,用于判断两个组之间的均值差异是否显著。
图片展示:
plotdata <- as.data.frame(pairwise[[1]])#双方括号 [[ ]] 运算符,可以按照索引从列表中提取单个元素。索引从1开始,表示第一个元素。
plotdata
## diff lwr upr p adj
## 2times-1time 3.44300 -0.6582817 7.544282 1.380949e-01
## 4times-1time 6.59281 2.4915283 10.694092 3.541944e-04
## drugD-1time 9.57920 5.4779183 13.680482 3.456851e-07
## drugE-1time 15.16555 11.0642683 19.266832 1.347589e-12
## 4times-2times 3.14981 -0.9514717 7.251092 2.050382e-01
## drugD-2times 6.13620 2.0349183 10.237482 9.610857e-04
## drugE-2times 11.72255 7.6212683 15.823832 2.270564e-09
## drugD-4times 2.98639 -1.1148917 7.087672 2.512446e-01
## drugE-4times 8.57274 4.4714583 12.674022 3.724127e-06
## drugE-drugD 5.58635 1.4850683 9.687632 3.063288e-03
plotdata$conditions <- row.names(plotdata)
ggplot(plotdata,aes(x=conditions,y=diff))+
geom_point(size=3,color="red")+
geom_errorbar(aes(ymin=lwr,
ymax=upr,width=0.2))+
geom_hline(yintercept = 0,color="red",linetype="dashed")+
theme_bw()+
coord_flip()
结果解释:其中置信区间包含0的drugD-4times,4times-2times和2times-1times三组均值差异不显著。其他组均显著,其中drugE-1times两组之间的均值差异最大。
9.3.1.2 glht()函数进行成对组间比较
glht()函数不仅适用于线性模型,更适用于广义线性模型(见13章)
glht()函数是R语言中multcomp包(Multiple Comparisons)中的一个函数,它提供了对线性模型进行多重比较的功能,可以进行各种类型的对比和假设检验。
语法:
glht(model,linfct = mcp(group ="Tukey"))
model:要进行假设检验的线性模型对象,通常是使用lm()函数拟合的线性模型。
linfct:指定要进行的对比和假设检验的线性函数。
mcp()函数用于创建多重比较的对比设置。在glht()函数中,linfct参数使用mcp()函数来指定要进行的对比和假设检验的线性函数。
mcp(group = “Tukey”)表示对group因子进行Tukey多重比较。
举例:
tuk <- glht(fit,linfct = mcp(trt ="Tukey"))
summary(tuk)
##
## Simultaneous Tests for General Linear Hypotheses
##
## Multiple Comparisons of Means: Tukey Contrasts
##
##
## Fit: aov(formula = response ~ trt, data = cholesterol)
##
## Linear Hypotheses:
## Estimate Std. Error t value Pr(>|t|)
## 2times - 1time == 0 3.443 1.443 2.385 0.13814
## 4times - 1time == 0 6.593 1.443 4.568 < 0.001 ***
## drugD - 1time == 0 9.579 1.443 6.637 < 0.001 ***
## drugE - 1time == 0 15.166 1.443 10.507 < 0.001 ***
## 4times - 2times == 0 3.150 1.443 2.182 0.20511
## drugD - 2times == 0 6.136 1.443 4.251 < 0.001 ***
## drugE - 2times == 0 11.723 1.443 8.122 < 0.001 ***
## drugD - 4times == 0 2.986 1.443 2.069 0.25124
## drugE - 4times == 0 8.573 1.443 5.939 < 0.001 ***
## drugE - drugD == 0 5.586 1.443 3.870 0.00305 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
注解:
Estimate:表示估计值(Estimate)。它给出了对比或线性函数的估计效应大小。具体而言,对于每个对比或线性函数,Estimate列显示了估计的效应大小。
Std. Error:表示标准误差(Standard Error)。它是对比或线性函数估计值的标准差。标准误差是用于衡量估计值的精确度或可靠性的度量。
t value:表示t值(t value)。它是对比或线性函数估计值除以其标准误差的比值。t值用于检验估计值是否显著不同于零。
Pr(>|t|):表示p值(p value)。它是根据t分布计算得出的对比或线性函数的双侧假设检验的p值。p值表示观察到的统计量(这里是t值)在零假设下达到或超过观察到的值的概率。
9.3.2 评估检验的假设条件
方差分析要求1)因变量服从正态分布,2)各组方差相等。
9.3.2.1 正态性检验(Q-Q图)qqPlot()函数
若满足正态假设,图上的点应该落在呈45度角的直线上;若非如此则违反正态性。
library(car)
fit <- aov(response~trt,cholesterol)
qqPlot(fit,simulate=TRUE)
## [1] 19 38
数据均落在95%的置信区间内,说明满足正态性。
9.3.2.2 方差齐性检验-Bartlett检验
主要看P值,若P-value>0.05,说明方差无显著不同,满足方差齐性。
bartlett.test(response~trt,cholesterol)
##
## Bartlett test of homogeneity of variances
##
## data: response by trt
## Bartlett's K-squared = 0.57975, df = 4, p-value = 0.9653
9.4 单因素协方差分析
9.4.1 分析展示
数据为multcomp包中的litter数据集。怀孕小鼠被分为4组,分别接受不同剂量(0,5,50,500)的药物,产生幼崽的体重均值为因变量,怀孕时间为协变量。
library(multcomp)
library(dplyr)
litter
## dose weight gesttime number
## 1 0 28.05 22.5 15
## 2 0 33.33 22.5 14
## 3 0 36.37 22.0 14
## 4 0 35.52 22.0 13
## 5 0 36.77 21.5 15
## 6 0 29.60 23.0 5
## 7 0 27.72 21.5 16
## 8 0 33.67 22.5 15
## 9 0 32.55 22.5 14
## 10 0 32.78 21.5 15
## 11 0 31.05 22.0 12
## 12 0 33.40 22.5 15
## 13 0 30.20 22.0 16
## 14 0 28.63 21.5 7
## 15 0 33.38 22.0 15
## 16 0 33.43 22.0 13
## 17 0 29.63 21.5 14
## 18 0 33.08 22.0 15
## 19 0 31.53 22.5 16
## 20 0 35.48 22.0 9
## 21 5 34.83 22.5 15
## 22 5 26.33 22.5 7
## 23 5 24.28 22.5 15
## 24 5 38.63 23.0 9
## 25 5 27.92 22.0 13
## 26 5 33.85 22.5 13
## 27 5 24.95 22.5 17
## 28 5 33.20 22.5 15
## 29 5 36.03 22.5 12
## 30 5 26.80 22.0 13
## 31 5 31.67 22.0 14
## 32 5 30.33 21.5 12
## 33 5 26.83 22.5 14
## 34 5 32.18 22.0 13
## 35 5 33.77 22.5 16
## 36 5 21.30 21.5 9
## 37 5 25.78 21.5 14
## 38 5 19.90 21.5 12
## 39 5 28.28 22.5 16
## 40 50 31.28 22.0 16
## 41 50 35.80 21.5 16
## 42 50 27.97 21.5 14
## 43 50 33.13 22.5 15
## 44 50 30.60 22.5 15
## 45 50 30.17 21.5 15
## 46 50 27.07 21.5 14
## 47 50 32.02 22.0 17
## 48 50 36.72 22.5 13
## 49 50 28.50 21.5 14
## 50 50 21.58 21.5 16
## 51 50 30.82 22.5 17
## 52 50 30.55 22.0 14
## 53 50 27.63 22.0 14
## 54 50 22.97 22.0 12
## 55 50 29.55 21.5 12
## 56 50 31.93 22.0 14
## 57 50 29.30 21.5 16
## 58 500 24.55 22.0 7
## 59 500 33.78 22.5 13
## 60 500 32.98 22.0 10
## 61 500 25.38 21.5 11
## 62 500 30.32 22.0 15
## 63 500 19.22 22.5 11
## 64 500 26.37 21.5 14
## 65 500 28.60 22.5 9
## 66 500 19.70 22.0 11
## 67 500 32.88 22.5 15
## 68 500 26.12 22.5 13
## 69 500 33.20 22.0 12
## 70 500 32.97 22.5 14
## 71 500 38.75 23.0 16
## 72 500 33.15 22.5 12
## 73 500 30.70 21.5 13
## 74 500 35.32 22.0 17
litter%>%
group_by(dose)%>%
summarise(n=n(),mean=mean(gesttime),sd=sd(gesttime),weight=weight)#这里其实可以不用求协变量的均值和sd,这不影响后面F检验的结果
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in
## dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()`
## always returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `summarise()` has grouped output by 'dose'. You can override using the
## `.groups` argument.
## # A tibble: 74 × 5
## # Groups: dose [4]
## dose n mean sd weight
## <fct> <int> <dbl> <dbl> <dbl>
## 1 0 20 22.1 0.438 28.0
## 2 0 20 22.1 0.438 33.3
## 3 0 20 22.1 0.438 36.4
## 4 0 20 22.1 0.438 35.5
## 5 0 20 22.1 0.438 36.8
## 6 0 20 22.1 0.438 29.6
## 7 0 20 22.1 0.438 27.7
## 8 0 20 22.1 0.438 33.7
## 9 0 20 22.1 0.438 32.6
## 10 0 20 22.1 0.438 32.8
## # ℹ 64 more rows
fit <- aov(weight~gesttime+dose,litter)
summary(fit)
## Df Sum Sq Mean Sq F value Pr(>F)
## gesttime 1 134.3 134.30 8.049 0.00597 **
## dose 3 137.1 45.71 2.739 0.04988 *
## Residuals 69 1151.3 16.69
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
结果表明:
1.怀孕时间与幼崽的出生体重相关;
2.控制怀孕时间,药物剂量与出生体重相关。
9.4.1.1 去除协变量的影响后的均值-effects包中的effect()函数
语法:
effect_object <- effect(term, model, ...)
# term:要计算效应的模型项(term),变量
# model:拟合好的模型对象
# ...:其他设置参数,例如指定新的数据集、指定效应类型等
举例:
library(effects)
effect("dose",fit)
##
## dose effect
## dose
## 0 5 50 500
## 32.35367 28.87672 30.56614 29.33460
9.4.2 多重比较(组间比较)
library(multcomp)
contrast <- rbind("no drug vs. drug"=c(3,-1,-1,-1))
summary(glht(fit,linfct = mcp(dose=contrast)))
##
## Simultaneous Tests for General Linear Hypotheses
##
## Multiple Comparisons of Means: User-defined Contrasts
##
##
## Fit: aov(formula = weight ~ gesttime + dose, data = litter)
##
## Linear Hypotheses:
## Estimate Std. Error t value Pr(>|t|)
## no drug vs. drug == 0 8.284 3.209 2.581 0.012 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
rbind(“no drug vs. drug”=c(3,-1,-1,-1))这里有点难以理解。
9.4.3 评估检验的假设条件
ANCOVA与ANOVA一样需要正态性和方差齐性。
9.4.3.1 正态性检验和方差齐性检验
library(car)
fit <- aov(weight~gesttime+dose+gesttime:dose,litter)
qqPlot(fit,simulate=TRUE)
## [1] 63 66
bartlett.test(weight~dose,litter)
##
## Bartlett test of homogeneity of variances
##
## data: weight by dose
## Bartlett's K-squared = 9.6497, df = 3, p-value = 0.02179
结果显示满足正态性,但不满足方差齐性。
9.4.3.2 假定回归斜率检验(ANCOVA特有)
另外,ANCOVA要求假定回归斜率相同,要在回归分析中引入假定回归斜率相同,可以使用交互项(interaction term)或虚拟变量(dummy variable)来表示不同自变量之间的差异。例如引入交互项,则要求交互项的F检验不显著。
fit <- aov(weight~gesttime+dose+gesttime:dose,litter)
summary(fit)
## Df Sum Sq Mean Sq F value Pr(>F)
## gesttime 1 134.3 134.30 8.289 0.00537 **
## dose 3 137.1 45.71 2.821 0.04556 *
## gesttime:dose 3 81.9 27.29 1.684 0.17889
## Residuals 66 1069.4 16.20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
结果显示交互项的F检验P值不显著,说明假定回归斜率相同。
9.4.4 结果可视化
pred <- predict(fit)
library(ggplot2)
ggplot(data=cbind(litter,pred),
aes(gesttime,weight))+
geom_point()+
facet_wrap(~dose,nrow = 1)+#创建分面图,根据因子变量 dose 进行分组,并在一行中创建多个子图。
geom_line(aes(x=gesttime,y=pred))+
theme_bw()+
theme(axis.text = element_text(angle = 45,hjust = 1))#设置文本的旋转角度为 45 度,水平对齐方式为向右对齐
9.5 双因素方差分析请
9.5.1 实例展示
这里以ToothGrowth数据集为例:60只豚鼠随机分为6组,其中3组给予橙汁,另外三组给予Vc,含有的抗坏血酸剂量分别为0.5mg、1mg、和2mg。这里有两个因子:橙汁和Vc为一个分类因子,剂量为另一个分类因子。
library(dplyr)
head(ToothGrowth)
## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
注意,这里dose显示其数据类型非因子,因此需要先将其转为因子:
ToothGrowth$dose <- as.factor(ToothGrowth$dose)
head(ToothGrowth)
## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
显示dose已经被转为因子变量。
states <- ToothGrowth%>%
group_by(supp,dose)%>%
summarise(n=n(),mean=mean(len),sd=sd(len),
ci=qt(0.975,df=n-1)*sd/sqrt(n))
## `summarise()` has grouped output by 'supp'. You can override using the
## `.groups` argument.
states
## # A tibble: 6 × 6
## # Groups: supp [2]
## supp dose n mean sd ci
## <fct> <fct> <int> <dbl> <dbl> <dbl>
## 1 OJ 0.5 10 13.2 4.46 3.19
## 2 OJ 1 10 22.7 3.91 2.80
## 3 OJ 2 10 26.1 2.66 1.90
## 4 VC 0.5 10 7.98 2.75 1.96
## 5 VC 1 10 16.8 2.52 1.80
## 6 VC 2 10 26.1 4.80 3.43
fit <- aov(len~supp*dose,ToothGrowth)
summary(fit)
## Df Sum Sq Mean Sq F value Pr(>F)
## supp 1 205.4 205.4 15.572 0.000231 ***
## dose 2 2426.4 1213.2 92.000 < 2e-16 ***
## supp:dose 2 108.3 54.2 4.107 0.021860 *
## Residuals 54 712.1 13.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9.5.2 结果可视化
library(ggplot2)
ggplot(states,aes(dose,mean,group=supp,color=supp,
linetype=supp))+
geom_point()+
geom_line()+
geom_errorbar(aes(ymin=mean-ci,
ymax=mean+ci),
width=0.2)+
theme_bw()
图片显示:
1.随着橙汁和维C中的抗坏血酸的含量增加,牙齿长度增加。
2.0.5和1mg抗坏血酸时,橙汁比Vc更能促进牙齿的生长。
3.2mg含量时,两种方法的牙齿增长相同。
由于该设计是均衡的,所以不用考虑效应顺序。
9.6 重复测量方差分析
9.6.1 准备工作
1.重复测量方差分析中要求数据集格式为长表格格式,可以tidyr包中的gather()函数将宽表格转化为长表格格式,详见第五章。
2.数据要满足含有组内和组间因子,尤其是组内因子。
9.6.2 语法
使用stats包,假设测量变量为”outcome”,条件变量为”condition”,个体标识变量为”subject”:
model <- aov(outcome ~ condition + Error(subject/condition), data = your_data)#subject 是指代个体或受试者的标识变量。
summary(model)
9.6.3 实例展示
使用的是CO2数据集,包含了一般来自加拿大的魏北科省(Quebec)和一般来自美国密西西比州(Mississippi)的植物,对某浓度二氧化碳环境中,寒带(chilled)和非寒带(non-chilled)光合作用的比较。
因变量为二氧化碳吸收量(uptake),组间因子为植物类型Type和组内因子为7种水平的二氧化碳(conc)。
此研究中我们仅关注寒带植物。
CO2 <- as.data.frame(CO2)
head(CO2)
## Plant Type Treatment conc uptake
## 1 Qn1 Quebec nonchilled 95 16.0
## 2 Qn1 Quebec nonchilled 175 30.4
## 3 Qn1 Quebec nonchilled 250 34.8
## 4 Qn1 Quebec nonchilled 350 37.2
## 5 Qn1 Quebec nonchilled 500 35.3
## 6 Qn1 Quebec nonchilled 675 39.2
数据集显示为长表格格式,故不用修改。另外,组间因子conc还不是因子类型,需要修改为因子。
CO2$conc <- as.factor(CO2$conc)
head(CO2)
## Plant Type Treatment conc uptake
## 1 Qn1 Quebec nonchilled 95 16.0
## 2 Qn1 Quebec nonchilled 175 30.4
## 3 Qn1 Quebec nonchilled 250 34.8
## 4 Qn1 Quebec nonchilled 350 37.2
## 5 Qn1 Quebec nonchilled 500 35.3
## 6 Qn1 Quebec nonchilled 675 39.2
方差分析:
w1b1 <- subset(CO2,Treatment=='chilled')#只选择 "Treatment" 列中值为 "chilled" 的行,因为我们只关注寒带植物
fit <- aov(uptake~conc*Type+Error(Plant/conc),w1b1)
summary(fit)
##
## Error: Plant
## Df Sum Sq Mean Sq F value Pr(>F)
## Type 1 2667.2 2667.2 60.41 0.00148 **
## Residuals 4 176.6 44.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Error: Plant:conc
## Df Sum Sq Mean Sq F value Pr(>F)
## conc 6 1472.4 245.40 52.52 1.26e-12 ***
## conc:Type 6 428.8 71.47 15.30 3.75e-07 ***
## Residuals 24 112.1 4.67
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9.6.4 结果可视化
library(ggplot2)
plot <- w1b1%>%
group_by(conc,Type)%>%
summarise(n=n(),mean=mean(uptake),sd=sd(uptake),
ci=qt(0.975,df=n-1)*sd/sqrt(n))
## `summarise()` has grouped output by 'conc'. You can override using the
## `.groups` argument.
ggplot(plot,aes(conc,mean,group=Type,color=Type,
linetype=Type))+
geom_point()+
geom_line()+
geom_errorbar(aes(ymin=mean-ci,
ymax=mean+ci),
width=0.2)+
theme_bw()+
labs(x="concentration",y="mean uptake",title = "Interaction Plot for Plant Type and Concentration")
9.7 多元方差分析
因变量不止一个时。
9.7.1 语法
manova()函数:
manova(formula, data, ...)
summary(fit)
#当用summary()函数返回的F检验结果显著,则可以用下面函数对几个因变量做单因素方差分析
summary.aov(fit)
9.7.2 实例展示
这里我们用MASS包中的UScereal数据集为例,研究美国谷物中的卡路里、脂肪和糖含量是否会因货架位置(shelf)的不同而发生变化。shelf包括3种:1、2、3分别代表底层,中层和高层货架。
library(MASS)
head(UScereal)
## mfr calories protein fat sodium fibre
## 100% Bran N 212.1212 12.121212 3.030303 393.9394 30.303030
## All-Bran K 212.1212 12.121212 3.030303 787.8788 27.272727
## All-Bran with Extra Fiber K 100.0000 8.000000 0.000000 280.0000 28.000000
## Apple Cinnamon Cheerios G 146.6667 2.666667 2.666667 240.0000 2.000000
## Apple Jacks K 110.0000 2.000000 0.000000 125.0000 1.000000
## Basic 4 G 173.3333 4.000000 2.666667 280.0000 2.666667
## carbo sugars shelf potassium vitamins
## 100% Bran 15.15152 18.18182 3 848.48485 enriched
## All-Bran 21.21212 15.15151 3 969.69697 enriched
## All-Bran with Extra Fiber 16.00000 0.00000 3 660.00000 enriched
## Apple Cinnamon Cheerios 14.00000 13.33333 1 93.33333 enriched
## Apple Jacks 11.00000 14.00000 2 30.00000 enriched
## Basic 4 24.00000 10.66667 3 133.33333 enriched
shelf <- as.factor(UScereal$shelf)
y <- cbind(UScereal$calories,UScereal$fat,UScereal$sugars)
colnames(y) <- c("alories","fat","sugars")
aggregate(y,by=list(shelf=shelf),FUN=mean)#这一步也可以不做,但是做了可以看到不同货架的区别
## shelf alories fat sugars
## 1 1 119.4774 0.6621338 6.295493
## 2 2 129.8162 1.3413488 12.507670
## 3 3 180.1466 1.9449071 10.856821
cov(y)#计算协方差,后面评估假设条件时需要的,也可以放到后面再求
## alories fat sugars
## alories 3895.24210 60.674383 180.380317
## fat 60.67438 2.713399 3.995474
## sugars 180.38032 3.995474 34.050018
fit <- manova(y~shelf)
summary(fit)
## Df Pillai approx F num Df den Df Pr(>F)
## shelf 2 0.4021 5.1167 6 122 0.0001015 ***
## Residuals 62
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary.aov(fit)
## Response alories :
## Df Sum Sq Mean Sq F value Pr(>F)
## shelf 2 50435 25217.6 7.8623 0.0009054 ***
## Residuals 62 198860 3207.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response fat :
## Df Sum Sq Mean Sq F value Pr(>F)
## shelf 2 18.44 9.2199 3.6828 0.03081 *
## Residuals 62 155.22 2.5035
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response sugars :
## Df Sum Sq Mean Sq F value Pr(>F)
## shelf 2 381.33 190.667 6.5752 0.002572 **
## Residuals 62 1797.87 28.998
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9.7.3 评估检验的假设条件
需要满足:
1.因变量组合成的向量符合多元正态性(Q-Q图验证);
2.方差-协方差矩阵同质性,目前R中没有好的方法验证。
center <- colMeans(y)#计算列均值
n <- nrow(y)#计算y的行数
p <- ncol(y)#计算y的列数
cov <- cov(y)#计算 y 的协方差矩阵
d <- mahalanobis(y,center,cov)#计算 y 中每个观测值与参考点 center 之间的马氏距离
coord <- qqplot(qchisq(ppoints(n),df=p),d,main="Q-Q plot",ylab="D2")
abline(a=0,b=1)#创建一个 Q-Q 图,用于比较马氏距离 d 与卡方分布的分位数之间的关系。qchisq() 函数计算卡方分布的分位数,ppoints(n) 计算观测值的分位数。
identify(coord$x,coord$y,labels=row.names(UScereal))
## integer(0)
若服从多元正态性,则点将落在直线上。图片显示有两个异常点,违反多元正态性。
9.8 补充geom_hline()和geom_xline()
geom_hline()是ggplot2包中用于绘制水平线的几何图层函数。它可以在ggplot2绘图中添加水平线,用于标记特定的数值或参考线。
Hide
geom_hline(yintercept = ,color="",linetype="")
yintercept = 某个数字,例如yintercept =0,则是在y轴0位置处添加参考线,由于它绘制的水平线,因此只能设置yintercept=,不能设置xintercept=
linetype=““包括:
“blank”:空白线,即不显示线条。
“solid”:实线,默认的线型样式。
“dashed”:虚线,由一系列短划线和间隙组成。
“dotted”:点线,由一系列小圆点组成。
“dotdash”:点划线,由一系列小圆点和短划线交替组成。
“twodash”:双划线,由一系列双短划线组成。
geom_vline()
geom_vline()是ggplot2包中用于绘制垂直线的几何图层函数。它可以在ggplot2绘图中添加垂直线,用于标记特定的数值或参考线。
Hide
geom_vline(xintercept = ,color="",linetype="")
xintercept = 某个数字,例如xintercept =0,则是在x轴0位置处添加参考线,由于它绘制的水平线,因此只能设置xintercept=,不能设置yintercept=
9.9 补充colMeans()函数
一个 R 中的函数调用,用于计算矩阵或数据框 y 的列均值(column means)。它返回一个向量,其中包含 y 中每列的均值。
语法:
colMeans(data)
9.10 补充mahalanobis()函数
R 语言中用于计算马氏距离(Mahalanobis distance)的函数。马氏距离是一种考虑了变量之间相关性的距离度量,常用于多元统计分析和异常检测。
语法:
mahalanobis(x, center, cov)
x:一个向量、矩阵或数据框,表示要计算马氏距离的观测值。如果 x 是一个向量,它将被视为单个观测值。如果 x是一个矩阵或数据框,每一行将被视为一个观测值。
center:一个向量,表示马氏距离的参考点(均值向量)。center 的长度应与 x 中的变量数目相同。可以理解为列均值。
cov:一个协方差矩阵,表示变量之间的协方差关系。cov 的维度应与 x 中的变量数目相同。
9.11 补充qchisq()函数
R 语言中用于计算卡方分布的分位数的函数。卡方分布在统计学中常用于假设检验、拟合优度测试和构建置信区间等。
语法:
qchisq(p, df, lower.tail = TRUE, log.p = FALSE)
p:一个介于 0 和 1 之间的概率值,表示要计算其对应的卡方分布分位数。
df:卡方分布的自由度。自由度指定了卡方分布的形状。
lower.tail:一个逻辑值,表示是否计算分布函数的下尾(小于等于 p 的概率)。默认为 TRUE,表示计算下尾概率。
log.p:一个逻辑值,表示 p 是否为对数概率。默认为 FALSE,表示 p 是原始概率值。
9.12 补充ppoints()函数
R 语言中用于生成概率点的函数,主要用于在统计分布中生成等间隔的概率点。该函数返回一个向量,其中包含了从 0 到 1 之间的等间隔概率点。
语法:
ppoints(n)
n:一个正整数,表示要生成的概率点的数量。
完整教程请查看
原文地址:https://blog.csdn.net/weixin_47195452/article/details/145139041
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!