中位数 :统计学中的专有名词

更新时间:2023-08-15 18:12

中位数(Median),又称中值。指一组观察值,按大小顺序排列,位置居中的变量值 (n为奇数)或位置居中的两个变量值的均数(n为偶数)。中位数是一个位次上的平均指标。

中位数概念最早出现在六世纪的《塔木德》,但未广泛流传。此后中位数在部分著述中被提及,但都没有明确算法及应用,且并未得到普及。直到1774年,法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)明确建议使用中位数作为后验概率密度函数(PDF)值的标准估计量,以最小化预期误差。1843年,法国数学家安东尼·库尔诺(Antoine Augustin Cournot)首次使用中位数(valeur médiane) 一词来表示将概率分布分成相等的两半的值。

在一组观测值的数据中,大于的个数和小于的个数相等;此外,当与某一定值的离差绝对值(也称绝对离差)之和,以=时为最小。中位数表明总体中标志值小于中位数的单位数和大于中位数的单位数是相等的。用中位数来代表总体的一般水平可以避免受总体中极端标志值的影响,有时更具有代表性。

中位数可以应用于任何定量资料,通常用于不适合用几何平均值和调和平均值的偏度资料中,尤其适用于包含不完全信息的资料中。其具体可以应用在生活、医学及计算机等领域,如临床上随访资料经常包含一些中途失访患者的某些数据;在生活中,中位数能够反映考试分数集中趋势的量。

定义

将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数:。此外,也有一些人将变量x的中位数表示为med(x)、x͂、为μ 1/2或M。当发生这种使用这些或其他中位数符号,都需要在使用时明确定义。

严格来说,中位数就是把所有数据按照一定的顺序(通常情况下按数值大小)进行排列,处于排序后数据最中间位置所对应的那个数值。如果数据个数奇数,中位数就是处在正中心的数值;如果数据个数是偶数,中位数就是处在正中心位置左右两项数据的平均数。中位数可用来说明社会经济现象各单位数量标志值的一般水平。

将研究的数列项数(无论是奇数或偶数)加1除以2,即可求得中位数的位置,从而可找出中位数。设未分组的统计数列资料为(已按大小排序)。

当数列项数为奇数时,则第项的标志值为中位数;当数列项数为偶数时,则以与这两个标志值的和的简单平均数为中位数。即:

由此,中位数的确定可表述为

简史

在古代近东地区,科学家们并未普遍采用汇总统计数据,而是倾向于选择能够综合多种现象并提供广泛一致性的单一值。统计学中的平均值等概念主要是在中世纪和近代早期形成的。中位数这一概念最早见于公元六世纪的《塔木德》中,目的是用于公平地对不同的评价进行分析,但这一概念并未在科学界广泛流传。

与现代中位数最接近的祖先是中程数(mid-range),由Al-Biruni提出 ,他用这一方法来分析货币金属,尽管其传播情况不详。在他的理论提出后,大多数分析者仍然倾向于使用对他们不利的数据值,以免被认为作弊。 直到大航海时代,随着船舶数量的增加,导航员需要在恶劣天气中确定纬度,这促使人们对汇总统计方法重新产生兴趣,如哈里奥特在《Instructions for Raleigh's Voyage to Guiana, 1595》中推荐了中程数。

而中位数的概念最早可能在英国数学家爱德华·赖特(Edward Wright)于1599年出版的《Certaine Errors in Navigation》一书中提出,他在讨论罗盘导航时提到了中位数。赖特倾向于保留所有测量值,并认为中位数更有可能正确,但他没有提供具体的应用示例,因此很难验证他是否描述了现代中位数概念。中位数在概率背景下也出现在荷兰数学家克里斯蒂安·惠更斯(ChristiaanHuygens)的信件中,尽管它被视为不适合精算实践的统计例子。

1757年,意大利数学家波斯科维奇(Roger Joseph Boscovich)开发了一种基于L 1范数的回归方法,隐含地表达了基于中位数所推出。1774年,法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)明确建议使用中位数作为后验概率密度函数(PDF)值的标准估计量,以最小化预期误差。为此,拉普拉斯在1800年代初确定了样本均值和样本中位数的分布。十年后,德国约翰·卡尔·弗里德里希·高斯(Guass,C.F,)和法国数学家阿德利昂·玛利·埃·勒让德(Adrien-Marie Legendre)开发出最小二乘法,因其计算简便而取代了拉普拉斯的方法。

1843 年, 安东尼·库尔诺(Antoine Augustin Cournot)是第一个使用中位数(valeur médiane) 一词来表示将概率分布分成相等的两半的值的人。德国物理学家古斯塔夫·费希纳(Gustav Theodor Fechner)在社会学和心理现象中使用了中位数(Central werth)。它早些时候仅用于天文学和相关领域。古斯塔夫·费希纳 (Gustav Fechner)将中位数推广到正式的数据分析中。且中位数出现在F. Y. 埃奇沃斯(F. Y. Edgeworth)的书中。之后,弗朗西斯·高尔顿 (Francis Galton)在1869年使用了“中最值”(middle-most value),接着在1880年使用了“中值”(media),之后在1881年正式使用了英语术语中位数:median。

整个19世纪,统计学家大力鼓励使用中位数,因为它直观清晰。然而,中位数的概念并不像算术平均值那样适用于高矩理论,而且更难计算。20世纪,中位数作为平均数的概念逐渐被算术平均数所取代。

相关概念

众数

众数,是指变量数列中出现次数最多或频率最大的变量值。用它来作为该变量数列的代表值,反映变量分布的集中趋势。众数的次数越多,集中趋势越显著。反之,若众数的次数较少,众数的代表性就较差。因此,只有集中趋势显著时,才能用众数作为总体的代表值。

平均数

平均数指同质总体某一标志值在一定时间、地点、条件下所达到的一般水平,是总体的代表值。是用来度量统计频率分布集中趋势的指标。在次数分布中,多数变量聚集于平均数的周围因而平均数总是处在频率分布集中的位置或附近、反映事物的集中趋势。

方差

方差是用来描述随机变量取值的分散程度或波动大小的特征数:方差越小,说明随机变量的取值越集中(集中于均值附近);方差越大,说明随机变量的取值越分散。标准差是方差的算术平方根,其功能与方差相似,差别在于量纲上。由于标准差与随机变量本身和其期望有相同的量纲,所以在应用中常用标准差,但标准差的计算必须通过方差获得。说明:随机变量的数学期望存在,其方差不一定存在;但当方差存在时,由于总是成立,因此其数学期望一定存在。大多时候使用此公式:。

概率分布中位数

对于任何具有累积分布函数的实值概率分布,中位数被定义为满足以下不等式的任何实数:,

另一种等价的表达方式是考虑的随机变量

,并且,这个定义并不要求具有绝对连续分布以及离散分布。

实数集上的任意概率分布至少有一个中位数,但在特殊情况下,可能存在多个中位数。例如当分布在某个区间上恒等为 1/2(概率分布在该区间内为0),则该区间的任何值都是中位数。

样本中位数

样本按大小次序排列后处于中间位置上的统计量称为样本中位数,常用表示。

设是来自某总体的一个样本,其次序统计量记为

则。

多元中位数

边际中位数

边际中位数是为在一组特定坐标系下定义的向量而设定的概念,它指的是一个向量,其每个分量均为对应的单变量数据集的中位数值。

几何中位数

几何学领域,对于位于三维空间内的一系列离散样本点,几何中位数被定义为一个特殊位置的点,该点的能够使其自身到这些样本点的累积距离达到最小。

几何中位数的定义为:

几何中位数不仅在一维数据中通过最小化各点间距离的总和来体现其集中趋势,在多维空间中同样适用。几何中位数有时也被称作1-中位数、空间中位数、欧几里得最小点或托里拆利点。此外,几何中位数对于欧几里得相似变换(例如平移和旋转)是等变的。

全方位中位数

当一个数据集在所有坐标系中的边际中位数都汇聚于同一点时,这一点被称作“全方位中位数”,这个概念与投票理论相关。对于离散分布而言,当全方位中位数出现时,它与几何中位数能够达成一致。

中心点

中心点是中位数对高维欧几里德空间中数据的推广。其概念为:在一个位于d维空间中的点集,该集合的中心点是一个点,通过该点的任何一个超平面都将点集划分为两个大致相等的部分,其中较小部分的点数至少占总点数的1/(d + 1)。与中位数一样,中心点可以不是原始数据点集中的任何一个点。任何不含重复元素的非空点集都至少存在一个中心点。

中线

1940年,匈牙利数学家瓦尔德(Abraham Wald)提出了一种处理双变量数据集的策略,即根据独立变量x的中位数将数据分为两部分——一部分包含值低于中位数的数据,另一部分包含值高于中位数的数据。他的方法包括分别计算这两部分的因变量y和自变量x的平均值,并据此估算连接这两点的直线斜率,随后对这条直线进行调整,使其尽可能贴合数据集中的大部分点。

相关定律

詹森中位数不等式

詹森不等式指出,对于具有有限期望的随机变量,以及对于任何凸函数,都有以下不等式成立:。这个不等式也可以推广到中位数。

如果函数对于任何满足以下条件:

而这是应该闭区间(允许单点或空集的退化情况)。则称任何凸函数是一个函数,但反之则不成立。如果是函数,则。

中值无偏估计量

对于一个确定的一维参数,估计量的分布中位数恰好等于的值,那么这个估计量就被称为中值无偏估计量。也就是说估计值低估的次数与高估的次数一样多。这种要求在大多数应用中与均值无偏性同样有效,并且具有在一对一变换下不变的性质。

性质

性质一

在一组观测值中,大于的个数和小于的个数相等。是累积频率为0.50所对应的的值,如下图1。

这便是在观测值没有(或很少)重复的情形下中位数的性质。

当观测值中重复数值很多,这一性质就不一定成立。如九名学生的成绩是95,90,90,85,85,85,85,80,75。那么=85。大于的有3个,小于的有2个,个数不等。

性质二

我们还常用到各与某一定值的离差绝对值(也称绝对离差)之和。表示为:

得出中位数有这样的性质:上述绝对离差和以=时为最小。

证明:一组数与某一定值的离差的绝对值之和

按分别讨论,以时为最小。

设各按由小到大排列,而

将式分成两项以脱去绝对值号,证明完毕。

计算

根据中位数的概念,确定中位数的要领是如何准确计算累计次数的中点。由于统计务实中所掌握的计算资料不通,计算中点的方法也有所不同。

第一种方法:由未分组的原始资料确定中位数的方法。要确定未分组资料的中间项,首先把不规则的原始资料按变量大小依次排列,以总次数除以2,求之。计算公式为:。

公式中:代表中位数所在的中间项次,代表总次数。如果总次数是奇数项,则居中间位置的标志值就是中位数。如果总次数是偶数项,则居中间位置的相邻两个变量值的算术平均数便是中位数。

第二种方法:由分组资料计算中位数的方法。在掌握分组资料时,中间位置的计算方法如下:

因为分组资料有次数分配,要以累计次数计算。累计次数,可以从变量值最低组开始,称以下累计法,也可从最高组开始,称以上累计法。用“以下累计”法确定中位数,亦称下限法,用“以上累计”法确定中位数,亦称上限法。根据中位数的性质,下限法与上限法所计算的结果应该一致。但是,如果采用(n+1)/2确定中间位置项来求中位数,则下限法所计得的答案,不能与上限法的答案相等,这就违背了中位数是一固定中间位置值的数学性质。故采用确定中间位置项,才能使这两种方法的计算结果相同。

两个计算公式如下:

下限法计算公式:

上限法计算公式:

上述公式式中:代表中位数所在组下限值;代表中位数所在组上限值;

代表中位数所在组前面各组的累计次数(以下累计);

代表中位数所在组后面各组的累计次数(以上累计);

代表中位数所在组的次数;

代表中位数所在组的组距。

推广

分位数

分位数是中位数的推广,将数据按从小到大的顺序排列后,对于,它的分位点定义为

其中,[]表示的整数部分。

百分位数

百分位数的概念是中位数概念的推广。

定义:一组个观测值按数值大小排列如。

处于位置的值称为第百分位数。

中位数是第 50 百分位数。

第百分位数就是一般顺序中第位的数 (如不是整数,取大于它的最小整数)。

应用

中位数的应用一不受极端标志值的影响,二不受开口组的影响。可以应用于任何定量资料,通常用于不适合用几何平均值和调和平均值的偏度资料中,尤其适用于包含不完全信息的资料中。

医学领域

中位数在医学统计学中常用于描述偏态分布资料的集中位置,反映位次居中的观察值的水平。特别是用于分布不清楚或变量值一端(或两端)无确定数值。在医学领域中还可以应用在如临床上随访资料经常包含一些中途失访患者的某些数据;有时因受仪器和试剂的灵敏度的限制,指标的含量过低时无法准确测,只知道一组数中有几个数低于某数值。

中位数可创建筛查体制:国内首个筛查中心结合欧洲的筛查质控经验,提出建立以筛查指标中位数倍数值(multiple of median,)中位数(即)为核心的评价质控体系,该评价体系是唐氏综合征产前筛查质量控制工作的一个重要而有效的办法。利用某医院的发病数据,可以建立中位数回归模型,能够预测严重急性呼吸综合征发病病例。

生活领域

中位数反应在生活领域,可以帮助工厂预估生产零件件数。中位数能够反映考试分数集中趋势的量,即反映考试分数整体水平的数值。中位数的计算不是由每个分数都参加运算求得,而是由中间位置相邻的部分分数求故中位数一般不受两极端分数的影响。当一组考试分数中出现特大或特小两极端分数时,可用中位数代表整体水平。由于中位数仅利用了考试分数中相对位置的信息,故在充分利用考试分数整体的信息上,中位数不如平均分数。所以在一般情况下,中位数的集中代表性不如平均分数,中位数的应用也不如平均分数广泛。

计算机领域

中位数还可应用于MATLAB函数中。在Matlab中,median()函数是计算数据的中位数的内置函数,其使用格式为

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: