泊松回归(为计数资料建模的回归分析)

泊松回归：为计数资料建模的回归分析

更新时间：2024-09-20 17:00

泊松回归（英语：西莫恩·泊松 regression）是用来为计数资料和列联表建模的一种回归分析。

泊松回归模型

代表由一组相互独立的变量组成的向量，其泊松回归的模型形式为:

亦可简洁表示为：

此处，是维的向量，由个独立变量（自变量向量）一个常向量（元素取值全为1）构成，用一个 θ代表第一个表达式当中的 α和 β。

因此，当已知泊松回归模型当中的 θ和解释变量，其满足泊松分布的被解释变量的期望值可以由下式来预测：

是被解释变量的观测值，相应的解释变量为，可由极大似然估计（Maximum Likelihood estimation）的方法来估计参数 θ。极大似然估计不能通过解析表达式获得解析解，是由其对数似然函数为凸函数的特性，可通过Newton–Raphson 或其他基于梯度下降的思想方法来进行参数估计。

极大似然估计

如上所述，已知泊松回归模型当中的 θ和解释变量 , 其回归表达式为：

泊松分布的概率密度函数为：

现已知解释变量的观测值为由 m个向量组成对应 m个被解释变量的观测值， . 若同时已知 θ, 则该组观测值所对应的联合概率可由下式表达：

极大似然方法估计 θ的核心思想是，去找到能使得基于当前观测值的联合概率尽可能达到最大的 θ。（可理解为：变量的取值当前观测值，与取值为其他任何数值相比，是发生概率最高的事件）。既然目标是寻找到最优的 θ，可以先将上式的等号左边简单表达为关于 θ的表达式：

注意等号右边的表达式并未改写，但通常难于付诸计算，因而采用其对数变化后的表达式（ log-likelihood）即：

由于 θ仅出现在似然函数的前两项，因而在极大化似然函数的运算过程中，可以只考虑前两项。可以删去第三项，待优化的似然函数可以简洁表达为：

为了找到极大值，需要求解方程：

可以通过对其似然函数取负值（negative log-likelihood）,

是一个凸函数, 标准的凸优化方法可以考虑来求解θ的最优值。统一的方法是Newton-Raphson 与Iterative Weighted Least 史克威尔（IWLS）算法。给θ一组初始值，IWLS 是通过多次迭代更新直到θ收敛。

简介

泊松回归，并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时（特别是当用作列联表模型时）又被称作对数-线性模型。

2014年巴西世界杯，所有的数据分析专家都以数据为准，分析员最后都会将其整合成模型。通常情况下，建模人员会把问题从“哪一支队伍会胜出”改为“X队和Y队比赛，X队会进多少个球”，这里使用到的是一种名为“双变量泊松回归分析法”(bivariate Poisson regression)。

“双变量”指的是，在做出某个单一结果的预测时需要参考两个相互影响的因素，比如一场比赛中的X队和Y队的表现。“回归分析法”指将即有数据填充到模型中去。而“泊松分布”则是很有趣的分析方法。

试想像，你站在路旁，想要知道一分钟会有多少汽车急驰而过。首先，你必须收集数据。利用秒表和计数器，第一分钟，假设有15辆车驶过；第二分钟，18辆；而下一分钟只有4辆。持续记录下去，你就可以得到一个模型，这便是“泊松分布”的原型。这项分析方法是由法国数学家西莫恩·泊松提出，用于估测人们做出错误判断的几率。

根据泊松分布，足球比赛的结果同样具有分散性。一支足球队进1或2个球的可能性最大，其次为不进或者进3个，而进4或5个球(或者更多)的几率则大大下降。于是建模人员会根据这支队伍之前的表现，通过泊松分布制图，预测出它们之后得分的情况。

案例分析

观众们就开始预测结果并且在体育赛事上投下赌注；而近些年，一种与众不同的数据分析法逐渐雄踞赛事预测市场。高盛，彭博以及纳特·西弗的538(Five Thirty Eight)官网都利用数据，来对比赛的结果做出最为准确。高盛预测本土作战的巴西有的几率拿下冠军；538给出的几率是，而彭博认为巴西夺冠的几率仅仅只有。

参考资料

数学世界杯：泊松分布预测巴西世界杯冠军.新浪网.2014-06-17

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}