泊松回归 :为计数资料建模的回归分析

更新时间:2024-09-20 17:00

泊松回归(英语西莫恩·泊松 regression)是用来为计数资料和列联表建模的一种回归分析。

泊松回归模型

代表由一组相互独立的变量组成的向量,其泊松回归的模型形式为:

亦可简洁表示为:

此处,是 维的向量,由 个独立变量(自变量向量)一个常向量(元素取值全为1)构成,用一个 θ代表第一个表达式当中的 α和 β。

因此,当已知泊松回归模型当中的 θ和解释变量,其满足泊松分布的被解释变量的期望值可以由下式来预测:

是被解释变量的观测值,相应的解释变量为 ,可由极大似然估计(Maximum Likelihood estimation)的方法来估计参数 θ。极大似然估计不能通过解析表达式获得解析解,是由其对数似然函数为凸函数的特性,可通过Newton–Raphson 或其他基于梯度下降的思想方法来进行参数估计。

极大似然估计

如上所述,已知泊松回归模型当中的 θ和解释变量 , 其回归表达式为:

泊松分布的概率密度函数为:

现已知解释变量的观测值为由 m个向量组成 对应 m个被解释变量的观测值, . 若同时已知 θ, 则该组观测值所对应的联合概率可由下式表达:

极大似然方法估计 θ的核心思想是,去找到能使得基于当前观测值的联合概率尽可能达到最大的 θ。(可理解为:变量的取值当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。既然目标是寻找到最优的 θ,可以先将上式的等号左边简单表达为关于 θ的表达式:

注意等号右边的表达式并未改写,但通常难于付诸计算,因而采用其对数变化后的表达式( log-likelihood)即:

由于 θ仅出现在似然函数的前两项,因而在极大化似然函数的运算过程中,可以只考虑前两项。可以删去第三项 ,待优化的似然函数可以简洁表达为:

为了找到极大值,需要求解方程

可以通过对其似然函数取负值(negative log-likelihood),

是一个凸函数, 标准的凸优化方法可以考虑来求解θ的最优值。统一的方法是Newton-Raphson 与Iterative Weighted Least 史克威尔(IWLS)算法。给θ一组初始值,IWLS 是通过多次迭代更新直到θ收敛。

简介

泊松回归,并假设它期望值对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。

2014年巴西世界杯,所有的数据分析专家都以数据为准,分析员最后都会将其整合成模型。通常情况下,建模人员会把问题从“哪一支队伍会胜出”改为“X队和Y队比赛,X队会进多少个球”,这里使用到的是一种名为“双变量泊松回归分析法”(bivariate Poisson regression)。

“双变量”指的是,在做出某个单一结果的预测时需要参考两个相互影响的因素,比如一场比赛中的X队和Y队的表现。“回归分析法”指将即有数据填充到模型中去。而“泊松分布”则是很有趣的分析方法。

试想像,你站在路旁,想要知道一分钟会有多少汽车急驰而过。首先,你必须收集数据。利用秒表和计数器,第一分钟,假设有15辆车驶过;第二分钟,18辆;而下一分钟只有4辆。持续记录下去,你就可以得到一个模型,这便是“泊松分布”的原型。这项分析方法是由法国数学家西莫恩·泊松提出,用于估测人们做出错误判断的几率。

根据泊松分布,足球比赛的结果同样具有分散性。一支足球队进1或2个球的可能性最大,其次为不进或者进3个,而进4或5个球(或者更多)的几率则大大下降。于是建模人员会根据这支队伍之前的表现,通过泊松分布制图,预测出它们之后得分的情况。

案例分析

观众们就开始预测结果并且在体育赛事上投下赌注;而近些年,一种与众不同的数据分析法逐渐雄踞赛事预测市场。高盛,彭博以及纳特·西弗的538(Five Thirty Eight)官网都利用数据,来对比赛的结果做出最为准确。高盛预测本土作战的巴西有的几率拿下冠军;538给出的几率是,而彭博认为巴西夺冠的几率仅仅只有。

参考资料

数学世界杯:泊松分布预测巴西世界杯冠军.新浪网.2014-06-17

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: