卡方分布 :统计学中三大抽样分布之一,伽马分布的特例

更新时间:2023-10-31 15:01

卡方分布(英文:Chi-square 广义函数) 是 一种连续型抽样分布,统计学三大抽样分布之一。

1893 年,卡尔·皮尔逊(Karl Pearson)开始研究一般的偏度分布问题,1893年发表的是以他名字命名的分布族中的一个特例——皮尔逊Ⅲ型,则后来被叫做“分布族”,或者说自由度不必为整数的分布族,皮尔逊提出这个分布是为了拟合偏态()的二项分布。1895年皮尔逊又依据二项分布和超几何分布而得到了皮尔逊曲线族,其中就包括了分布。

卡方分布与连续性随机变量的分布有关,基于正态分布,为伽马分布的特例。卡方分布具有几个基本性质,如渐近正态性、可加性。其检验法是统计学中一种常见的假设检验方法,常用的有方差显著性检验,拟合良好性检验独立性检验等。卡方分布在物理、医学、社会等领域具有应用价值,如构建辐射带电子蝴蝶状投掷角分布的优化判别方法等。

定义

若一个随机变量的概率密度为,称服从自由度为的分布,记作。

历史沿革

偏态分布的形成

1893 年,卡尔·皮尔逊(Karl Pearson)开始研究一般的偏态分布问题,1893年发表的是以他名字命名的分布族中的一个特例——皮尔逊Ⅲ型,则后来被叫做“分布族”,或者说自由度不必为整数的分布族。他把这称为“正态曲线的推广形式,具有非对称的性质”这分布的标准形式,皮尔逊提出这个分布是为了拟合偏态()的二项分布。卡方分布是德国大地测量学学者F. 赫尔梅特(Friedrich Robert Helmert)于1875年提出的,他的发现早于皮尔逊。

在1895年,皮尔逊发表了其依据二项分布和超几何分布而得到结论,他的曲线族所满足的微分方程:其中为常数,令这些常数取种种值,可得到种种不同的解,其全体统称皮尔逊曲线族。其他统计学中常见的重要分布,如,,等分布,无不包罗在此族内。

卡方检验法的历史

1900年,皮尔逊在《哲学杂志》上发表文章:“关于在相关变量系统的情况下,给定的偏差系统与可能的偏差系统的标准,可以合理地假设它是由随机抽样引起的”(On the criterion that a given system of deviations from the probable in the case of a correlated system of variables issuch that it can be reasonably supposed to have arisen from ran-dom 取样)这篇被认为是假设检验开山之作的论文,其中没有一处提到“hypothesistesting”这个字眼,它关心的是建立一个衡数据与其“或然值”拟合度的数指标一goodness of fit 现在通译为拟合优度。皮尔逊引进了一个刻划其偏差的量,证明此量(在理论概率正确时)近似地有分布,利用这个结果去计算拟合优度这是一个介于之间的值,此值越大,则拟合的程度越好,由于皮尔逊把这个反映偏差的量记为,其分布与分布有密切的联系,它也常被称为皮尔逊的统计量

分布曲线特征

是一种在正态分布基础上的衍生总体分布。它的分布型式随离差的个数( 即自由度的多少)而异。每个自由度都有一条分布曲线。由于卡方是由平方和构成的,所以没有负值。卡方曲线的高峰随自由度的增加而逐渐移往右边。当自由度越来越大时,卡方分布趋向两侧对称而接近正态分布。当卡方自由度接近时,则为正态分布。

相关概念

正态分布

如果随机变量的分布密度函数为,,则称随机变量服从参数为和的正态分布,和分别称为位置参数和尺度参数。如果,此时称随机变量服从标准正态分布。卡方分布为统计量的分布,是由标准正态分布构成的。

伽马分布

若非负随机变量有密度函数其中 ,则称服从参数为的伽马分布,其中称作形状参数,称作尺度参数,简记为。

随机变量,则,根据伽马分布的可加性有,由此可见,分布是伽马分布的特例,故分布的密度函数为,。

性质

期望与方差

证明:由于,故;又由于

所以,从而;再由相互独立,从而也相互独立,于是

渐近正态性

当时,分布的极限分布是标准正态分布,即若,则。

可加性

如果,且与相互独立,则

证明:因为,根据分布的定义,可以推知,必有 相互独立,;使得;必有相互独立,使得。因为和相互独立,所以,相互独立。则是个相互独立的服从标准正态分布随机变量的平方和,由分布的定义,可知

类似理论

F分布

设随机变量, , 与独立,则称分布是自由度为与的分布,记为,其中称为分子自由度,称为分母自由度。

t分布

设随机变量与,独立且,,则称的分布为自由度为的分布,记为。

假设检验

卡方检验法

卡方检验法为利用卡方统计量进行检验的方法,常用的有方差显著性检验,拟合良好性检验独立性检验等。例如,对总体服从正态分布其数学期望未知时对总体方差进行检验设,基本思想如下:是从总体抽取的容量为的随机样本,则所采用的检验统计量。服从自由度为的分布。上述检验为检验。其中样本均值为已知数给定显著性水平,要对原假设进行验,因为分布是不对称的,对于给定的显著性水平,由及。确定临界值,它们可由分布临界值表查出。(如下图)图中阴影部分表示拒绝域。于是,可用统计量进行成对的检验。由样本观察值算出的数值,当或时,拒绝原假设,当时,接受原假设。此外,对或也可用上述统计量,取不同的拒绝域进行检验。

举例

某车间生产滚珠,随机抽取了 50 个产品,测得它们的直径为(单位:):

15.0 15.8 15.2 15.1 15.9 14.7 14.8 15.5 15.6 15.3 15.1 15.3 15.015.6 15.7 15.8 14.5 14.2 14.9 14.9 15.2 15.0 15.3 15.6

15.1 14.9 14.2 14.6 15.8 15.2 15.9 15.2 15.0 14.9 14.8 14.5 15.1 15.5 15.5 15.1 15.1 15.0 15.3 14.7 14.5 15.5 15.0 14.7 14.6 14.2 则可以通过卡方检验法来判断滚珠直径是否服从正态分布

设滚珠直径为,其分布是,待检验的假设是。仍用检验法。首先从数据出发找出的最大似然估计是。取,这50个数据最小的是14.2,最大的是15.9。取,将7等分,得分点,实数轴被这些分成了段,利用及正态分布表可以得到 如下:

现在来计算统计量,为便于检查,列表如下

,取,查分布表(自由度)得。现在故不能拒绝。

卡方分布表

应用领域

物理

卡方分布在物理学领域存在着广泛的运用,例如卡方分布函数可用于构建辐射带电子蝴蝶状投掷角分布的优化判别方法,基于卡方分布函数的判别模型,通过比较电子观测通量剖面与模型模拟的理想蝴蝶状分布剖面的相似性来判别电子蝴蝶状分布。而使用卡方分布模型对传统方法的判别结果进行二次筛选,可以更准确地挑选出真正符合凤蝶总科状分布特征的通量剖面,进而优化对电子蝴蝶状投掷角分布的判别效果。又或者通过研究铁磁颗粒分布对磁流变弹性体磁致效应的影响,提出了基于卡方分布的磁偶极子模型,推导了磁致剪切模量的表达式。该模型弥补了“均匀分布”假设的不足且形式简单,适于工程应用,同时可以精确反映出各因素对磁流变弹性体磁致效应的影响规律,其中分布参量和外加磁场强度是影响磁致效应的关键因素。

医学

卡方分布在医学中也有着广泛的用途。例如Meta分析中基于统计量服从卡方分布线性变换的异质性方差区间估计,在异质性量化分析的研究中,如果采用的点估计为估计,那么异质性方差的可信区间的可信度主要取决于统计量的分布是否精确。因此,要获取更加可靠的可信区间,首先要设法寻求统计量更为精确的分布。通过修正统计量的分布,即将统计量的分布近似为自由度为的卡方分布的线性变换,通过选取适当的变换系数,保证了统计量具有真实的期望和方差,与异质性方差区间估计法相比,首先提高了统计量分布的精确度,由于异质性方差的可信区间是借助统计量分布来求解的,所以可有效提高可信区间的可靠程度。

例如在医学实例中,为了评价利尿剂对先兆子痫的治疗作用,可通过搜集临床试验结果(如下图),以比值比的对数作为效应值,效应值的抽样方差估计为。

下图给出了统计量服从不同分布所得到的可信区间,其中表示服从自由度为的卡方分布;表示服从自由度为的卡方分布的线性变换。结果表明,方法比原有的方法具有更加可靠的可信度,而且提高了区间估计精度。

社会

卡方分布在社会方面也有着广泛的用途,例如一种基于卡方分布的机场航站楼旅客时空分布预测方法。其中,包括:S1、基于建筑环境单元化管控思想,划分机场航站楼空间单元并进行编码;S2、基于统计学原理,建立机场航站楼旅客抵港概率卡方分布模型,表征航站楼旅客抵港概率与航班预计起飞时间的关系,并用启发式 算法求解模型未知参数;S3、利用流体动力学思想,将S1划分的航站楼空间单元视为微元,将S2 建立的旅客抵港概率卡方分布模型作为输入,计算各空间单元旅客数量。其仅依据建筑基本信息与航班动态信息即可预测航站楼内旅客分布情况,解决了航站楼因空间结构连贯、人员流动剧烈而造成的旅客分布预测难的问题,为航站楼强化运行保障能力率等提供重要技术支撑。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: