正态分布（Normal distribution），又称为常态分布或高斯分布，通常记作，是非常重要的概率分布，在统计学领域具有重要影响。正态随机变量的概率密度函数定义为，式中，是的数学期望，是的方差；当参数，时，即时，则称服从标准正态分布，相应的概率密度函数记为。

正态分布的概念最早由法国数学家亚伯拉罕·棣莫弗（A. D. Moivre）于1733年提出，但他没有从统计学的角度考虑正态分布的意义并将其用在误差分析中。在其之后，高斯（C. F. Gauss）率先提出了“正态误差”的理论，并和皮埃尔-西蒙·拉普拉斯（P-S. 皮埃尔-西蒙·拉普拉斯）一起研究了正态分布的性质。

正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线（类似于寺庙里的大钟，因此得名）。正态分布作为连续分布有着良好的统计学性质，有概率密度、累积分布、矩母和特征函数表达式，有期望（均值）、方差、偏度和峰度等数字特征存在。中心极限定理指出，在特定条件下，如果是独立分布的随机变量，它们具有相同的分布，且有有限的均值和方差，则这些样本的平均值也是一个随机变量，其分布随着样本数量的增加而收敛于正态分布。因此，许多与独立过程总和有关的物理量，例如测量误差，通常可被近似为正态分布。

自然界和社会中许多现象或变量都呈现出接近正态分布的特征，例如考试成绩、身高等。正态分布是统计分析和概率论中的重要理论基础，适用范围广泛，可用于质量控制、估计变量的频数范围和制定医学参考值范围等。

发展历程

起源

正态分布的概念最早由法国数学家亚伯拉罕·路易·法尔特·棣莫弗（A. D. Moivre）于1733年提出，他运用正态分布的近似性质，计算了与抛硬币试验中的随机事件相关的概率。当时，正态分布被称为指数钟形曲线，并作为二项分布当的近似分布，但亚伯拉罕·棣莫弗没有从统计学的角度考虑正态分布的意义并将其用在误差分析中。

许多天文学家开始了寻找误差分布曲线的尝试，其中，1755年，英国天文学家托马斯·乔治·盖洛德·辛普森（T. Simpson）率先走出了有意义的一步，进行了关于误差理论的工作，但辛普森的工作没有涉及一般误差概率理论，而是在误差满足某种特定的分布的前提下，专注于计算平均误差的分布，从而证明了在某种概率意义下，平均误差小于个别误差，首次从概率论角度严格证实了算术平均的优越性。

持续发展

直到1809年，德国数学家卡尔·弗里德里希·高斯（C. F. Gauss）提出了“正态误差”的理论，正态分布才展现了其应用价值，被广泛认可为一种概率分布，此后，正态分布也称为高斯分布。1823年，高斯出版了他的专著《Theoria combinationis observationum erroribus minimis obnoxiae》，在这本书中，他引入了一些重要的统计概念，包括最小二乘法、最大似然法等，并且在其中对正态分布进行了深入研究。

尽管高斯最早提出“正态误差”理论，但皮埃尔-西蒙·拉普拉斯也做出了显著的贡献。1774年，他首次探讨了合并多个观测值的问题，并导出了拉普拉斯分布，1782年，他首次计算了积分的值。拉普拉斯在1810年发表的论文中，论述了从包含高次项的公式的近似估计方法中导出关于减少误差的中心极限定理，证明了中心极限定理。随后，在1812年，拉普拉斯先后考虑多种分布情形，在《分析概率论》给出了亚伯拉罕·棣莫弗—拉普拉斯中心极限定理的理论证明，他扩展了棣莫弗的理论，指出二项分布可用正态分布逼近，突显了正态分布的理论重要性。

1808年，爱尔兰裔美国数学家罗伯特·艾德里安（R. Adrain）在所著论文《观测误差的概率研究》中，也为误差法则提出两项力证，几乎同时独立于高斯发表了两个有见地但有缺陷的正态概率定律推导，但是他的工作并没有引起人们过多的关注，也没有影响到误差论和相关问题的发展。直到1871年，阿贝（Abbe）发表论文《最小二乘法的历史注释》，这才引起人们对艾德里安关于误差理论工作的关注。

逐渐成熟

在19世纪中叶，詹姆斯·麦克斯韦证明了正态分布不仅是一种方便的数学工具，而且还可能发生在自然现象中：“ 在某个方向上解析的速度介于和之间的粒子数量为：。19世纪中叶至末期，比利时统计学家朗伯·阿道夫·雅克·凯特勒（Quetelet）和英国生物统计学家弗朗西斯·高尔顿（F. Galton）等人在社会、经济、遗传学等领域的工作将概率论应用扩展到更广泛的范围。凯特勒在自然科学和社会科学中运用应用概率论（包括正态分布），成为首位将概率论引入这两个领域的人，而高尔顿则首创将统计方法引入生物学，设计了高尔顿板以研究随机现象和验证中心极限定理。

自引入以来，正态分布已经有了许多不同的名称：误差定律、误差便利定律、皮埃尔-西蒙·拉普拉斯第二定律、高斯定律等。其中，20世纪英国统计学家卡尔·皮尔逊（K. Pearson）对正态分布的研究和推广起到了关键作用，他不仅使得正态分布这个名称变得流行，而且是第一个利用标准差来量化和表述正态分布的人。后来，罗纳德·费雪（R. A. Fisher）于1915年在皮尔森的基础上加入了位置参数，进一步发展了现代通用的正态分布表述形式，这些贡献帮助了正态分布在统计学和相关领域的广泛应用。

定义

概率密度函数

一维随机变量的概率密度函数（Probability Density 函数，PDF）定义为，式中，是随机变量的数学期望（均值），是的方差，且，。显然，单变量情况下的概率密度函数由参数和就可以完全确定，为简单起见常将相应的概率密度函数简记为或，读作服从，或服从正态分布。

当参数，时，即时，则称服从标准正态分布，相应的概率密度函数定义为。正态分布随机变量概率密度函数都满足：，。对于一般形式的正态分布，有。

累积分布函数

累积分布函数（Cumulative Distribution 函数，CDF），又叫分布函数，是概率密度函数的积分。根据连续型随机变量分布函数的定义，一般正态分布的分布函数为：，正态分布函数是一个增函数，而且有，，。

特别地，当参数，时，标准正态分布的分布函数为：，则有。

设，且为标准正态分布函数，则：，，。

矩母函数（矩生成函数）

对于随机变量，若数学期望存在，则对任意实数，其矩母函数（Moment Generating 函数，MGF，又称矩生成函数）定义为，记为。对于连续分布，其中的期望是；对于离散分布，其中的期望是。若随机变量服从，按照矩母函数及其数学期望的定义公式，可以写出一般正态分布的矩母函数为，其中，标准正态分布的参数、，代入上式，得到标准正态分布的矩母函数为。

特征函数

为了定义特征函数，须先引进复随机变量的概念，设和都是样本空间上的实随机变量，则称为复随机变量，其中。复随机变量的数学期望为，若是（实）随机变量，则当实数取定时，为复随机变量。

因此，设是随机变量，则称实变量的复值函数为随机变量的特征函数，或称为相应分布的特征函数（Characteristic 函数）。

若随机变量服从，按照特征函数定义公式，则一般正态分布的特征函数为，其中，标准正态分布的参数、，代入上式，得到标准正态分布的特征函数为。

数字特征

均值

正态分布概率密度函数是一条对称的钟形曲线，中间高，两边低，曲线位于轴的上方，且以直线为对称轴，左右完全对称，随着的增大与减小，曲线无限趋于轴，正态分布的期望、均值、中位数和众数相同，均等于。

均值代表正态分布的集中趋势位置，通常被称为位置参数。当取值为均数时，位于曲线的单峰的最高点，即此时的值最大，这表明在附近的概率密度最大；当的取值离开均数时，曲线的高度降低，即概率密度减小，且值越远离均数，曲线的高度就越低，即概率密度越小。

标准差

标准差是描述正态分布数据分布离散程度的参数，通常被称为尺度参数。越大，数据分布越分散，曲线越扁平；越小，数据分布越集中，曲线越瘦高。固定的值不变，改变的值，则曲线延轴平移，但其形状不改变；固定的值不变，改变的值，则曲线的位置不变，但随着的减小，曲线变得陡峭。

偏度

偏度是用来衡量统计数据分布的偏斜方向和程度的指标，也称偏态、偏态系数，是统计数据分布非对称程度的数字特征。偏度描述了概率分布密度曲线相对于平均值的不对称性，具体而言，偏度反映了密度函数曲线尾部的相对长度，偏度的计算公式为：。

当偏度为0时，表示数据分布完全对称，左右尾部长度相等，例如正态分布的偏度即为0。当数据分布呈现负偏时，意味着数据的左侧尾部较长，即较多的数据值偏离了平均值向右侧集中；而正偏则表示数据的右侧尾部较长，即较多的数据值偏离了平均值向左侧集中。

峰度

峰度是描述数据分布形态陡缓程度的统计量，峰度越大，数据分布越陡峭，尾部越厚；峰度越小，数据分布越平滑，偏度的计算公式为：。

正态分布的峰度为3，很多情况下，为方便计算，一般将正态分布的峰度值减去3，这样使得其峰度变为0，更方便进行比较。当数据的峰度为0时，表示数据分布的陡缓程度与正态分布相同；峰度大于0，表示数据分布比正态分布更陡峭，而峰度小于0，表示数据分布比正态分布更平坦；峰度的绝对值越大，表示数据分布形态与正态分布的差异越大。

实例

中心极限定理

与正态分布的联系

中心极限定理指出，当一个量受到相互独立的随机因素的综合影响而每个随机因素所起的作用不大时，该量的分布一般服从或近似服从正态分布。这说明，如果从任意分布的总体中抽取足够多的样本，样本均值会渐近地接近总体均值，即从任意分布的总体中抽取均值的样本分布渐近地接近正态分布。

中心极限定理是统计学中的重要定理，对于任何分布，只要其存在期望和方差，则当足够大时，样本均值近似服从期望为、方差为的正态分布。中心极限定理与正态分布密切相关，它是统计学中处理大样本的一个重要工具，说明了正态分布的重要性。其中，常见的中心极限定理有列维-林德伯格（Levy-Lindberg）中心极限定理和棣莫弗-拉普拉斯（De Moivre-皮埃尔-西蒙·拉普拉斯）中心极限定理等。

列维-林德伯格中心极限定理

设一组随机变量相互独立且同分布，若，，，则对于任意实数，有，其中是标准正态分布的分布函数，该定理是独立同分布情形下的中心极限定理，也称为列维-林德伯格（Levy-Lindberg）中心极限定理，这个定理的直观意义是，当足够大时，可以近似地认为。

棣莫弗-拉普拉斯中心极限定理

设随机变量是一个独立同分布的随机变量序列，且每个都服从分布，则对任意一个实数，总有，该定理被称为亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯中心极限定理（De Moivre-Laplace）。由二项分布的可加性知道，，因此概率的值理论上是可以精确算出的，但是，实际问题中当较大时，计算并不方便。

由泊松定理和亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯中心极限定理推得，如果随机变量，那么当较大时，可以利用正态分布近似求得概率。另外，对，，仍用上面的算式来近似，因为当较大时，、的值很小，可以忽略不计；当时，认为；当时，认为。

参数估计

概述

参数估计是数理统计学重要内容之一，在实际问题中，总体的数字特征或分布通常是未知的。即使知道总体的分布形式，例如正态分布或泊松分布，其中的参数也是未知的。因此，需要通过样本来估计总体的分布函数、分布中的未知参数或数字特征，这样就产生了统计估计问题。

参数估计的参数是指总体分布中的未知参数，例如，在正态分布中、未知，是需要估计的参数。如果已知总体的分布函数为其中参数（一维或多维）是未知的，由抽取的随机样本所提供的信息，建立样本的函数（即统计量）来对未知参数作出估计并讨论估计量“最佳”准则的统计问题，称为参数估计。从估计形式看，可分为点估计与区间估计两大类，其常用的方法有矩估计、最小二乘估计和极大似然法等。

统计学概念

统计量

统计量是只与样本有关、不含任何未知参数的函数，设为取自总体的一个样本，样本的函数为，若中不直接包含总体分布中的任何未知参数，则称为统计量。

在抽样前，统计量是一个随机变量，在抽样后得到的是一次样本观测值，这些是已经测得的，可以直接用于计算的数字，代入构造好的统计量中，则所得统计量的观察值是统计量的一次观测值，它是一个可以由数据算得的实数。

样本均值与方差

设为取自总体的一个样本，称为样本均值，它反映了样本各分量取值的平均状态，是对样本位置特征的一个刻画，可作为总体均值的一个近似值；为样本方差，它反映了样本中各分量取值的离散程度，可用来作为总体方差的一个近似值；为样本标准差。它们的观测值分别为：，;。

点估计

矩估计

设随机变量，则总体的一阶、二阶原点矩，有，。样本的一阶、二阶原点矩，有，，令，，联立方程组，可得均值和方差的矩估计，分别为：，。

最大似然估计

由上述正态分布概率密度函数，可得，正态分布的似然函数为，两边取对数，则有，分别和求导，获得似然方程组，解之，可求得和的估计值为：，。

最小二乘估计

由正态分布函数定义可知，，其中，是正态分布的均值，是正态分布的标准差，是标准正态分布的分布函数。由于标准正态分布函数是严格单调上升的，故其反函数存在，因此，上式可以表示为线性方程形式：。对于一组和的数据，利用最小二乘法计算该线性方程的回归系数和截距，即可求得和的估计值。

贝叶斯估计

贝叶斯分析（Bayes分析）是一种基于贝叶斯理论来预测事件发生概率的手法，用于估计正态分布的参数（通常是均值和方差）并结合先验概率信息进行推断。正态分布的贝叶斯分析中，使用贝叶斯定理来更新对参数的先验信念，并获得后验分布。假设有一组观测数据，通过这些观测数据来推断正态分布的参数和。在贝叶斯分析中，引入先验分布来表示对参数的初始信念，通常选择共轭先验分布作为正态分布的先验，对于正态分布，共轭先验是具有正态形式的分布。

具体步骤如下：①选择先验分布：选择正态分布作为参数和的共轭先验。先验分布可以是均值为，方差为的正态分布。②计算似然函数：似然函数表示给定参数和时，观测数据出现的概率。对于正态分布，似然函数可以通过计算观测数据的联合概率密度函数（或取对数）得到。③计算后验分布：根据贝叶斯定理，我们可以通过将先验分布与似然函数相乘，并进行归一化，得到参数的后验分布。后验分布表示了在给定观测数据的条件下，对参数的最新信念。④参数推断：通过后验分布，可以计算参数的点估计值，如后验均值、后验中位数等。

区间估计

正态分布的区间估计用于估计总体参数（如均值或标准差）的范围，在正态分布假设下，可以使用样本数据来构建置信区间，该区间给出了总体参数的估计范围。设为来自总体的样本，为未知参数，设有两个统计量和，若对给定的有，则称区间为的置信区间，和分别称为置信下限和置信上限，称为置信水平，也称置信概率或置信度。通常将“的置信水平为的置信区间”简称为“的置信区间”。

例如对于总体均值的区间估计，常见的方法是使用样本均值和标准误差来构建置信区间。假设希望构建一个95%的置信区间，那么通常会使用标准正态分布的临界值来确定区间的边界。通过构造抽样分布，并且抽样分布符合正态分布，查找标准正态概率表可以知道，任何整体分布随机变量都有95%的值在总体均值附近1.96个标准差内，即有95%的概率可以相信区间内包含总体均值，区间称为95%的置信区间。将此区间扩展为如下更具有普遍意义的公式：，式中是显著性水平，是标准整态概率分布上侧面积为时的值，下表中展示了常用的置信水平下的值。

正态分布校验

正态分布校验是一种用于确定数据是否符合正态分布的统计方法。正态分布校验的目的是检查样本数据是否具有正态（高斯）分布的特征，这在许多统计分析和假设检验中是一个重要的前提。以下是一些常见的正态分布校验方法：

图示法

直方图法

直方图法是一用于初步判断数据分布类型的统计方法，步骤包括排列数据，分组计算频率，创建直方图表示数据分布，如果数据呈现出两侧对称或接近对称的形态，尤其是直方图的中点连线对称，那么数据可能符合正态分布。同理，对数频率分布直方图也可用于对数正态分布的初步判断，但该方法只提供初步分布类型判断。

P-P图和Q-Q图法

P-P（Percent-Percent）正态概率图是根据变量分布累积比和正态分布累积比生成的图形，如果数据是正态分布，被检验数据基本成一条直线。Q-Q（Quantile-Quantile）正态概率图则反映了变量分布的分位数对正态分布的分位数，如果数据点在Q-Q图上近似地沿着一条直线排列，那么数据可能符合正态分布。如果数据点偏离直线，可能表明数据不符合正态分布。两者有很大的相似性，都可以在对原有数据进行自然对数转换、指数转换等的基础上来产生正态概率图。

正态性检验

Shapiro-Wilk检验

Shapiro-Wilk检验（夏皮罗-威尔克检验）是一种用于判断数据样本是否符合正态分布的统计方法，它的基本思想是检验数据与正态分布的拟合程度。首先给出假设，零假设（H0）：数据样本来自正态分布，备择假设（H1）：数据样本不来自正态分布；然后使用一个统计量，该统计量基于样本数据的排序值和回归系数来评估数据是否符合正态分布；根据样本数据的排序值和回归系数，计算Shapiro-Wilk统计量，选择显著性水平（可查表获得对应于值的），以确定是否拒绝零假设。

根据和，查表得到的临界值，如果统计量小于等于，则拒绝0假设，表示数据不符合正态分布，否则反之。Shapiro-Wilk检验在时可以使用，是基于次序统计量对它们期望值的回归，它是一个完全样本的方差分析形式的检验，检验统计量为样本次序统计量线性组合的平方与通常的方差估计量的比值。

Kolmogorov-Smirnov检验

安德雷·柯尔莫哥洛夫Smirnov检验法（科尔莫戈洛夫-斯米尔诺夫检验），简称K-S检验法，用来检验样本来自同一个总体的假设，可以用于样本容量的条件下检验分布是否服从正态或对数正态分布，该方法是通过样本的经验分布函数和理论分布函数的比较作拟合优度检验。

其基本思路是：若对每一个值来说，和拟和程度高，则两者差异就小，就有理由认为样本数据来自具有理论分布的总体。因此，可以利用样本各观察值的经验分布函数值和假设下的正态分布函数值之间最大绝对偏差值作为检验统计量。在求出最大绝对偏差值后，再根据给定的显著水平及样本容量，查单样本K-S检验统计量表中临界值。若，则差异不显著，可以认为总体的分布符合假设分布，即属正态分布。

偏峰度检验

定义偏峰度检验用到的偏度，峰度，其中为三阶矩，为四阶矩，为标准差，则正态分布的偏度为0，峰度为0。如果样本所代表的分布的偏度不等于0或峰度不等于0，就不是正态分布，因此，可以通过样本偏度和峰度是否接近0来判断数据是否服从正态分布。

从总体为的分布中，抽取容量为的样本：，则可由样本矩得到总体偏度和峰度的估计：三阶样本中心距，四阶样本中心距，将其代入偏度和峰度的计算公式，然后观察这些计算出的值是否接近0，从而判断样本数据是否符合正态分布，接近0的偏度值表示数据分布接近对称，而接近0的峰度值表示数据分布的峰形适中。

概率密度计算方法

正态分布分位数

标准正态分布的左侧分位数指的是随机变量小于某个数的概率为，如果服从标准正态分布，则，，如图所示。同理，标准正态分布的右侧分位数指的是随机变量大于某个数的概率为，如果服从标准正态分布，则，。

因此可知，一般情况下对任何介于之间的实数，标准正态分布的分位数把密度曲线下的面积分为两块，左侧为，右侧为，称之为分位数。这个分位数也可以通过标准正态分布表求得，也可直接从标准正态分布的分位数表查得。

标准正态分布表

标准正态分布的分布函数为，，标准正态分布表如下。

常用定理

定理1：设随机变量，则。

证明：对于随机变量，有

设，则上式可化为

即

利用此定理，可以将一般正态分布化为标准正态分布。

定理2：设，当时，，特别地，。这个定理说明服从正态分布的随机变量线性函数仍然服从正态分布。

证明：当时，是严格单增函数，其反函数为，则

当时

综上：

这正好是的密度函数，定理得证。