方差分析 :罗纳德·费歇尔在1924年提出的统计方法

更新时间:2023-08-15 15:54

方差分析(analysis of 方差,ANOVA),又称为变异数分析或F检验,是检验多个总体的均值是否相等的一种统计方法。方差分析的基本原理是将总变异分解成离差平方和及其自由度的若干部分,然后比较这些部分的变异与组内(或误差)变异,得出统计量值,再根据统计量值的大小确定概率值,做出统计推断。

方差分析的研究发展可以追溯到多位统计学家的贡献。皮埃尔-西蒙·拉普拉斯(Laplace)、约翰·卡尔·弗里德里希·高斯(Gauss)、卡尔·皮尔逊(Pearson)和莱克西斯(Lexis)等多位科学家的研究发现为此提供了大量理论基础和重要参考。1876年至1879年期间,莱克西斯在研究统计序列过程中利用的思想在判断统计序列的稳定性方面上与后来方差分析中的检验方法相一致。此外,他还提出了一元线性回归方差分析分解式。1924年,罗纳德·费雪(R. A. Fisher)在国际统计学会大会上正式提出了方差分析理论,标志该理论的正式建立。后来,耶茨(Yates)等人继续不断完善和发展统计学方法。

固定效应模型和随机效应模型是两种常见的方差分析模型。方差分析可依据试验因素的个数以及试验因素有无重复的特性这两种情况进行分类。进行方差分析基本步骤包括计算各水平观察值均值、分解总误差自由度和构建方差分析表并进行假设检验四个方面。与方差分析类似的统计方法还有协方差分析,它是一种将线性回归分析与方差分析结合起来的一种统计分析方法。方差分析不仅应用于环境科学领域,用于分析环境空气质量数据特征,还广泛应用于医学和工程学中。

方法内容

方差分析(analysis of variance,ANOVA)是检验多个总体的均值是否相等的一种统计方法。方差分析建立在以下基本假设上:每个总体都服从正态分布,且各总体的方差相同,各个观测值相互独立。方差分析的基本原理就是根据研究目的和设计类型,将总变异中的离差平方和及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量值;最后根据值的大小确定概率值,做出统计推断。

历史

奠基工作

1823年,皮埃尔-西蒙·拉普拉斯(Laplace)和约翰·卡尔·弗里德里希·高斯(Gauss)分别在著作《数据结合原理》中证明了高斯-马尔可夫定理,为最小二乘估计方差表达式的得出提供了理论基础。后续高斯还导出了残差平方和的表达式,并证明了残差平方和除以,是误差方差的一个无偏估计。1876年至1879年期间,莱克西斯(Lexis)在研究统计序列过程中利用的思想在判断统计序列的稳定性方面上与后来方差分析中的检验方法相一致。此外,他还提出了一元线性回归方差分析分解式,为后续方差分析的发展提供了重要的参考。

1900年,卡尔·皮尔逊(Pearson)发表了统计量,用于检验经验分布与某个理论分布是否相符。他还发展了回归与相关的概念,提出复相关、总相关、相关比等概念,为方差分析的进展奠定了基础。

理论提出与完善

1922年,罗纳德·费雪(R. A. Fisher)发表的论文《回归公式的拟合优度及回归系数的分布》还未提出方差分析这个术语,但已很接近这个思想。1924年,在多伦多举行的国际统计学会大会上,费歇尔做了题为《关于一个引出若干周知统计量的误差函数的分布》的报告,正式提出了方差分析,这是费歇尔唯一的一篇讨论方差分析的理论基础的数学论文,也是第一篇出现“方差分析表”的数学论文。这标志着方差分析理论的正式建立。

1925年,费歇尔发表《供研究人员用的统计方法》,标志着由戈塞特(Gosset)开始的“小样本理论”(又叫“学生分布”)最后得以完成。同时,由于费歇尔的努力,使卡尔·皮尔逊在1900年提出的“卡方检验法”也能适用于小样本。1938年,费歇尔同耶茨(Yates)合编“分布显著性水平表”,为分布和分布的研究和应用提供了便利。从而使统计学完成了由“描述”向“推断”发展的过程。

基本思想

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:

(1)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作,组内自由度。

(2)实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作,组间自由度。

总偏差平方和。

组内、组间除以各自的自由度(组内,组间,其中为样本总数,为组数),得到其均方和,一种情况是处理没有作用,即各组样本均来自同一总体,。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么。比值构成分布。用值与其临界值比较,推断各样本是否来自相同的总体。

方法模型

方差分析模型可以用来研究因变量是如何取决于一个或几个因素的。这里的一个因素定义为一个分类的自变量;换句话说,是一个定类测量层次的解释变量。

固定效应模型

一个固定效应的方差分析模型(也称作第一类方差分析模型)有固定的(即非随机的)参数来表达每个因素的类别效应。如果统计推论的目标在发现那些完全适用于数据中的因素的分类的结论,那么这种模型就是合适的。

固定效应方差分析模型是广义线性模型的特殊情况,而广义线性模型是回归分析的基础。在方差分析中一个因素各个分类的效应可以用回归分析虚拟变量的回归系数来表示。广义线性模型可以写成:。

式中表示这个案例,表示因变量,到,表示自变量(或解释变量),是未解释的部分,通常称为残差或误差。数量则是变量的回归系数。回归系数是固定(即非随机)的数量,也被称为固定效应它们是总体的特征,回归模型据此而定义在其他更复杂的模型中出现的固定效应也是类似的,例如,广义线性模型或非线性回归模型。

随机效应模型

方差分析可用于研究因变量如何依赖于一个或多个因子。这里,一个因子被界定为一个类别的自变量,或是一个具有定类测量层次的解释变量在一个随机效应方差分析模型(也称为第二类方差分析模型)中,每个因子的类别效应被设定为随机变量,也就是一个带有随机参数的模型。具体而言,当数据集中一个给定的因子的取值为,,,时,对于个案,该因子的取值记作,相应地,在的线性模型中,该因子在个案上的随机效应定义为,同时假定,,是独立同分布的随机变量。通常,假定这些随机变量服从一个正态分布。如果这个因子的所有类别被视为来自某个总体的随机样本,并且如果统计推论的目的在于获得这个总体的结论,这样的模型就是恰当的。

分类

按试验因素个数

(1)一元配置法,又称单因素试验法或一个变异因素方差分析法,就是在试验时选用的因素个数是一个。

(2)二元配置法,又称双因素试验法或两个变异因素方差分析法,就是在试验时选用的因素是两个。

(3)多元配置法,又称多因素试验法或多个变异因素方差分析法,就是在试验时选用的试验因素是三个以上。

按试验因素各水平有无重复

(1)无重复配置法,是试验因素的各水平只做一次试验。

(2)有重复配置法,是试验因素的各水平的组合条件作几次重复试验。

计算结果

单因素

单因素方差分析只考虑一个分类变量对数值变量的影响,其他条件不变。假设分类变量有个不同水平,通过次观测可以获得数值变量的组独立的样本观测值。这一过程称为单因素试验,结果如下。

在上表中,表示第行、第列的观测值,如表示分类变量第3个水平、第5次观测得到的数据。表示第行观测值的平均数(第个水平的均值),即

中的点表示已对下标求和,也称为行均值。总均值即组所有观测值的平均数用表示,即。

不难看出它也是各水平均值的平均数我们定义总变差为每一观测值与总均值的离差平方和:

对总变差进行平方和分解,有关系式:

(1),

式中,右边第一个和式记为,称为组内变差。即:

它是个水平各组观测值组内离差平方和相加的结果;右边第二个和式记为,它与分类变量有关,称为组间变差。即

它是各水平均值与总均值离差平方和的倍。这样式(1)就可以表示为:。

无重复试验双因素

如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的方差分析称为无重复试验双因素方差分析或无交互作用的双因素方差分析。无重复试验的双因素方差分析数据结构一般如下表所示。其中,表示行因素的第个水平下各观察值的平均值,;表示列因素索的第个水平下各个观察值的平均值,;表示全部个样本的总平均值,。

可重复试验双因素

在双(多)因素方差分析中,两个以上因素对结果的影响不是独立的,这种现象称为交互作用。由于交互作用的影响,在进行双因素方差分析时需要在同一条件下进行多次试验,否则无法将交互作用的平方和从误差平方和中分离出来,这种数据结构称为有重复试验的方差分析数据。有重复试验的双因素方差分析数据结构与无重复试验的双因素方差分析相同。适用的数据类型也是分布为正态分布、对样本容量无特别要求的定量数据。有重复试验的双因素方差分析数据结构表一般如下表所示。

非平衡数据双因素

从不同总体抽取的样本数量可以相同,也可以不同,即可以取不同值。当从总体抽取的样本数量相同时,即当时,可以定义这组数据为平衡数据;当从总体抽取的样本数量不全相同时,定义这组数据为非平衡数据。

非平衡数据的双因素方差分析适用于符合正态分布且对样本容量无特别要求的定量数据,它的数据结构表如下表所示。

基本步骤

提出假设

比较各个总体的均值是否一致就是要检验各个总体的均值是否相等,设第个总体的均值为则原假设,认为多个总体的均值全相等,或可理解为所有观察值来自同一总体,还可以理解为可控因素(分类变量)对研究对象(数值变量)不存在显著关系,还可以理解为系统误差与随机误差差异不大,与基于统计量的原假设意义一致。

备择假设,认为多个总体的均值不全相等,至少有一个总体的均值是不同的。或可理解为所有观察值来自不同总体,还可以理解为可控因素(分类变量)对研究对象(数值变量)存在显著关系,还可以理解为系统误差远远大于随机误差,与基于统计量的备择假设意义一致。

根据样本数据建立分析表

基于方差分析的基本思想,方差分析的关键内容是构建方差分析表,具体步骤如下:

第一步:基于宽结构数据表计算各水平对应的观察值均值。

第二步:使用长结构数据分别计算所有数据的总误差、来自可控因素的离差平方和(系统误差)和来自随机因素的离差平方和(随机误差)。

第三步:分解总误差的自由度。总误差的自由度为,系统误差的自由度为,随机误差的自由度为。

第四步:分别计算系统误差对应的方差和随机误差对应的方差

第五步:计算检验统计量

将上述步骤的计算结果整理成方差分析表,具体如下。

作出假设检验的决策

拒绝域法

在给定的显著性水平下,检验统计量的拒绝域为:,查分布表可得具体临界值,进一步可得具体拒绝域:根据单因素方差分析表中的值与拒绝域比较,值位于拒绝域内,说明来自可控因素的方差确实显著大于其他因素(随机)的方差,说明可控因素与研究对象之间存在着显著性相关关系。

p值法

基于上述方差分析表,值计算公式为:值。

值小于显著性水平,即值小于,拒绝原假设,说明来自可控因素的方差确实显著大于其他因素(随机)的方差,说明可控因素与研究对象之间存在着显著性相关关系。

类似理论

协方差分析

协方差分析(analysis of covariance,ANCOVA)是将线性回归分析与方差分析结合起来的一种统计分析方法。它用于比较一个因变量在一个或几个因素不同水平上的差异,但因变量在受这些因素影响的同时,还受到另一个协变量的影响,而且协变量的取值人为难以控制,不能作为方差分析中的一个因素处理。

模型

一般的协方差分析模型可写为,,其中,为模型的方差分析部分;的元素皆为或;为模型的回归部分,的元素可取任何实数值。

应用条件

方差分析是通过对误差的分析来研究判断多个正态总体均值是否相等的一种统计分析方法,其应用条件如下:

(1)检验因子有种水平,是个相互独立的正态总体,分别服从于的分布,。亦即各个水平的测量或观察数据,要能够被看作是从服从正态分布的总体中随机抽得的样本。

(2)各组或各样本的测量或观察数据,是从相互独立的总体中分别抽得的,并且各总体具有相同的方差,以便检验个相互独立的正态总体的均值是否相等

应用例题

题目:一批棉布用不同的印染工艺处理,然后进行缩水率试验,假设采用五种不同工艺,每种工艺处理4块布样,测得缩水率如下表:

若布的缩水率服从正态分布,不同工艺处理布的方差相等,试考察不同工艺对布的缩水率有无显著影响。

解:为计算简便起见,将每一数据减去,再除以,列出方差计算表(变换后数据仍记为,平方和仍分别为,,)。

,,

,,

据此列出方差分析表如下:

而,所以,认为不同印染工艺处理对布的缩水率有明显影响,但是如果认为这两个数据值相差不大,结论不那么令人信服,也可再进行一次抽样

应用领域

医学

在中医临床研究中,通常会对主要的结果指标实施多次的测量,处理多次测量的数据会选择重复测量资料方差分析,目的是推断处理因素、时间因素、两因素交互对于受试个体的作用效果,分析观察值的发展趋势和相关影响因子。重复测量资料的方差分析是研究中缩小个体差异所致误差的一种有效方法,检验效能较高,对于有限的受试个体进行多次测量并收集足够的数据,节省了样本含量,在很大程度上减少人力、物力、财力的消耗。

环境科学

空气环境的好坏是影响环境质量的重要因素之一。它是由空气中的悬浮颗粒物浓度来度量的,通过实时环境监测对当前的空气质量指数,了解空气污染物的主要组成,再分析对各影响空气质量的因素(时间、监测点),从而减轻空气污染问题。以空气质量数据的特征构建方差检验模型,通过对时间与空间两个影响因素进行方差分析检验,可以了解空气污染物对不同地区环境质量的影响。

工程学

在机械制造实际零件加工中,影响成品质量的因素有很多,包括材料、杂质含量、工艺方法、热处理等因素。为了明确各因素对产品质量的影响程度,需要进行方差分析。通过方差分析,可以有效地分析和判别每个因素对产品质量的影响程度,从而指导生产过程中的调整和改进。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: