https://www.youtube.com/playlist?list=PLUl4u3cNGP60uVBMaoNERc6knT_MgPKS0
本课程为18 650号课程,即“统计学基础”课程。该课程原名为”应用统计学”,但根据课程内容更为恰当的名称应为“统计学基础”。
本课程的目标如下:
为学生提供统计学的基础知识入门。本课程不需要学生事先学习过统计学知识。
使用 Mathematica 来学习统计学理论和概念。本课程包含许多统计学公式。
提供预测和推断的保真度保障。学习如何选择最佳的统计推断方法,并给出预测或结论的可信区间。
应用统计方法来解决实际问题。学习如何将问题归纳为统计学上可以解决的问题,选择合适的统计方法解决问题。
为学习机器学习打下统计学基础。统计学为机器学习提供重要理论支持。本课程可以为学习机器学习课程奠定基础。
透过课堂理论教学和任务课学习统计学知识。课程时间为每周二、四11:00-12:00。
参加每周三的强制辅导课,解决统计问题。辅导课时间为每周三15:00-16:00或16:00-17:00。
每周作业提交,作业占30%总成绩。最多允许两次延迟每次24小时完成作业。
中期考试两次,10月3日和11月7日,占30%总成绩。
期末考试一次,三小时,考核全程知识,占40%总成绩。
作业和考试必须以PDF格式提交。
期中考试是闭书闭目考试。期末考试允许使用自行制作的速成表。
有18.600或18.604概率论为前置课程,熟练使用矩阵、线性代数基本
中央极限定理告诉我们,如果取一个随机变量的平均值,随着sample数量的增加,它的分布会趋于正态分布。
比如对一个伯努利分布随机变量X进行采样,得到变量X1到Xn。我们定义X的均值为:
p^hat = Σx_i/n
中央极限定定理表明,随着n趋于无穷大,以下表达式的分布会趋于标准正态分布:
sqrt(n)(p^hat - p) / sqrt(p(1-p))
这里 sqrt(n) 来自样本平均值的标准差,sqrt(p*(1-p)) 是单个观测值X的标准差。
这个表达式不依赖未知参数p,被称为一个“突破分布”。我们可以根据正态表查找信间区间。
如果样本数n很小,例如n=3,中央极限定理不再成立。但我们还可以做准确计算。
对三个伯努利随机变量X1,X2,X3求平均值:
p^hat = (X1 + X2 + X3)/3
p^hat只能取4个值:0, 1/3, 2/3, 1
计算每个值的概率需要使用二项分布。
概率(p^hat = 0) = (1-p)^3 概率(p^hat = 1/3) = 3p(1-p)^2 等等
这些概率依赖未知参数p,不能直接构建置信区间。我们需要使用一些技巧来绕过这个依赖。
首先我们利用样本平均值来估计参数p:p^hat
然后利用中央极限定理,找到一个不依赖未知参数的“突破分布”
根绝这个分布,用正态表查找α/2和1-α/2的分位数,构建100(1-α)%的置信区间。
通过求解得出的置信区间公式,我们可以直接得到最坏情况下的p的值范围,而不需要解方程。
如果我们有一组数据,我们可以假设它来自某个分布。分布由一些参数决定,我们需要估计这些参数的值。
例如,我们收集了一些大学生兄弟姐妹的个数。我们可以假设每个人的个数来自于一个概率分布。如果我们假设它服从泊松分布,那么这个分布就只有一个参数λ。我们的目标就是估计出λ的值。
如果数据只有0和1两个值,我们可以假设它来自伯努利分布。伯努利分布只有一个参数p,代表成功的概率。 对于这个问题,最简单的估计量就是观测值为1的样本比例,它将会收敛到真实的参数p。
如果数据取常数个离散的值,我们可以使用离散分布来建模,例如泊松分布或多项分布。我们可以使用概率质量函数来描述离散分布,它是一个列表,记录了每个可能值的概率。我们的目标是估计这些概率的值。
虽然我们可以直接计算每个可能值的频率来估计它们的概率,但是如果样本量不大,对某些可能值的估计就可能不准确。为了提高准确度,我们可以将这些可能值合并为几个bin,这样模型参数就少了。例如我们可以把可能值分为1-3、4-7和大于7三个bin。
如果我们假设数据来自泊松分布,那么这个分布就由一个参数λ决定。我们可以使用样本数据来估计λ的值。由于λ代表兄弟姐妹的平均个数,我们 intuitivamente 知道它不可能是0。所以我们需要一个模型来同时利用所有数据来给出λ一个更合理的估计值。
贝叶斯估计器是根据随机变量分布的先验概率分布来选择参数值来最大化后验概率。最大后验概率估计可以看作是最大似然估计的一种扩展,将先验概率信息纳入考虑。
无偏估计就是估计值的期望等于真实值,也就是说在无限个样本情况下,平均来看估计值会等于真实值。
方差描述了估计值离真实值的平方偏差的期望值。方差越小,估计值离真实值的误差越小。
风险是衡量估计量质量的关键指标,定义为估计值与真实值之差的平方的期望值。风险可以拆分为偏差平方和方差之和。为了让风险收敛到0,需要使偏差和方差都收敛到0。
如果样本服从伯努利分布,使用平均值Xbar作为估计参数theta的值,那么它是一个无偏估计。其方差为θ(1-θ)/n,随着样本量n的增加而减小。
使用0.5作为估计值theta的估计,它没有方差但存在偏差0.5-θ。当θ近似为0.5时,它的风险能小于使用平均值Xbar的风险。
使用第一个样本值x1作为估计值,它是一个无偏估计,但方差为θ(1-θ),比使用全部样本平均值Xbar大n倍。因此风险也会比使用平均值大n倍。
可以绘出不同估计量随θ变化的风险曲线来选择风险最小的估计量。平均值Xbar对所有的θ都有较低的风险,只有当θ近似0.5时,0.5才可能是一个更好的估计。
最大似然估计的原理是找出可以使观测数据最可能产生的模型参数。它利用了独立同分布的观测数据来构建联合概率密度函数,然后找这个函数最大值的参数。
假设观测数据来自相同分布,且参数为θ。设观测数据为X1,X2,…,Xn。
构建观测数据的联合概率密度函数:p(X1,X2,…,Xn | θ)=p(X1 | θ)p(X2 | θ)…p(Xn | θ) |
取对数可得到对数联合概率密度函数: log p(X1,X2,…,Xn|θ)=log p(X1|θ)+log p(X2|θ)+…+log p(Xn|θ)
最大化对数联合概率密度函数相当于最大化每个Observation的对数概率密度函数之和。
所以最大似然估计量θ^即为使对数联合概率密度函数取最大值的参数。
对θ求导得最大似然估计方程:Σlogp(Xi | θ^)=0 |
假设观测数据服从N(θ,1)分布,θ未知。
则观测数据Xi的概率密度函数为: p(Xi|θ)=1/√2π exp[-(Xi-θ)2/2]
对数概率密度为:logp(Xi | θ)=-(Xi-θ)2/2 |
根据最大似然原理,θ^即为使Σlogp(Xi | θ)取最大值的参数,即Σ(Xi-θ)^2取最小。即θ^=平均(Xi) |
所以在这个例子中,最大似然估计量θ^即为观测数据的样本均值。
费舍尔信息是一个矩阵,如果参数θ是多维的,那么费舍尔信息矩阵就是θ的维度的角度。
费舍尔信息告诉我们模型中有关θ的参数的信息量。如果模型的参数化的很好,那么费舍尔信息就会更高。如果参数化的方式奇怪,那么费舍尔信息就会下降。
比如在高斯模型中,如果均值已知为0,那么我们关注的是方差σ^2。如果我们以σσ^4,σ^24等方式来参数化模型,那么费舍尔信息就会不同。
费舍尔信息有两种定义:
概率密度函数对数似然函数对θ求导的方差。
概率密度函数对数似然函数对θ求二阶导数的负期望。
先证明这两种定义是等价的:
假设X根据概率密度函数f(θ)分布。
对数似然函数L(θ)定义为对单个观测X的似然函数取对数。
L’(θ)代表对θ求导,L’‘(θ)代表对θ求二阶导数。
可以得到L’‘(θ)的表达式。
然后通过结合概率密度函数的性质,可以证明负期望L’‘(θ)等于L’(θ)的方差。
此外,如果X有概率密度函数f(θ),费舍尔信息也可以定义为:
∫ (∂f(θ)/∂θ)^2 / f(θ) dX
以此公式来计算费舍尔信息通常是最方便的。
假设检验是数据驱动科学研究的基础。它包括以下步骤:
提出一个科学假设,比如“敲除某个基因为治疗黑色素瘤有效”。
收集一定数量的样本,如对一些患者进行敲除某基因为治疗后观察情况。
通过样本数据给出一个是非问题的答案,如“基因敲除是否真的可以治疗黑色素瘤”。
考虑华盛顿特区每年举办的10英里卡面利花竞赛的数据集。2009年有约1.5万参赛者,平均完成时间为103.5分钟。
假设取2012年10个随机参赛者的数据,用以判断当年平均完成时间是否比2009年快。
根据2009年1.5万人的数据直方图,完成时间符合正态分布。
2009年平均时间103.5分钟,方差373。
考虑问答只关注平均完成时间,假设2012年方差与2009年相同。
完成时间正态分布假设难以否定。
主要假设H0:2012年参赛者X1的平均完成时间μ等于2009年的103.5分钟。
备用假设H1:μ小于103.5分钟,表征当年平均完成时间更快。
用2012年10个随机样本的平均时间作为统计量。
若平均时间小于某个临界值,则拒绝主要假设,支持备用假设。临界值根据样本数量和假设分布计算得出。
通过对问题进行建模假设,将可能的结果空间限定在一个可操作区域内,从而能从样本数据中得出有意义的结论,回答原假设检验问题。
在假设检验问题中,将θ分为θ0和θ1,二者不交集。θ0代表默认假设H0,θ1代表备选假设H1。
假设检验问题可以表示为:
H0: θ属于θ0 H1: θ属于θ1
H0称为零假设,H1称为备择假设。零假设代表现状,数据需要证明其错误。我们无法确认零假设正确,只能证明备择假设可能不正确。
检验统计量Φ将数据映射到0或1。Φ=1表示拒绝H0,Φ=0表示未拒绝H0。
拒绝区R代表Φ(x1,x2,…,xn)=1的数据组合,即导致拒绝H0的数据组合。
类型I错误:拒绝H0时而H0正确 类型II错误:未拒绝H0时而H1正确
错误概率用α和β表示。
α=P(Φ=1 | θ∈θ0) 类型I错误概率 |
β=P(Φ=0 | θ∈θ1) 类型II错误概率 |
检验水平α代表类型I错误最大容许概率。
功率π=最小{P(Φ=1 | θ∈θ1)} ,代表检验能力。若π越大,检验效果越好。 |
当α固定时,π通常随θ从θ0向θ1的变化而增加。π的最大值等于α,这时检验达到最佳。
χ^2 分配是其它分配中很常见的一种分配,它描述标准正态随机变量的平方和的分布。
χ^2 分布有一个明确的概率密度函数。当自由度为1时,它服从单个标准正态随机变量的平方分布;当自由度增加时,分布会向右偏移并变得更平缓。
样本方差服从自由度为样本量减一的χ^2 分布。
t 分布看起来很像正态分布,但它通过除以一个独立的χ^2 随机变量来标准化标准正态随机变量得到。
这个χ^2 随机变量代表样本方差估计作为真实方差的随机误差。所以t 分布实际描述了使用样本方差而不是真实方差标准化后的结果。
若采用样本平均数,根据中心极限定理,标准化后再除以样本量的平方根,可以近似看作标准正态分布。这样就将使用样本方差标准化结果转换为使用真实方差标准化,得到一个标准正态分布,再除以独立的χ^2 随机变量,就得到了student t 分布。
t 分布只针对一个自由度的参数给出表,因为其分布随参数的改变而改变,无法通过简单操作转换为一个标准分布。这就是为什么t 分布表 construye 的原因。
χ^2 分布和t 分布是统计推断中常见的两个重要分布。χ^2 分布描述样本方差的分布,t 分布描述使用样本统计量approximating 的检验统计量的分布。它们的本质分别和如何应用都给出了详细说明。
学生t检验适用于样本规模较小,来自正态分布的样本。
当样本规模较大时,可以使用中心极限定理近似说样本平均值近似符合正态分布。但当样本规模较小时,这一近似不再成立。这时需要用t分布来描述样本平均值的分布。
t分布是通过标准正态分布随机变量与自由度为ν的χ2随机变量的比值得到的。
t统计量为:(样本平均值-人口平均值)/标准误。
当样本来自正态分布时,t统计量的分布近似服从t分布,其自由度为样本数量n-1。
所以进行学生t检验时,我们需要参考t分布下指定自由度的临界值,而不是标准正态分布。
卡方检验用于测试一组观测值是否符合某一假设概率质量函数(PMF)的分布,即测试采样是否来自某一分布。
卡方统计量计算方式:
卡方统计量=∑(实际观测值-理论期望值)^2/理论期望值
其满足χ2分布。
我们可以通过对比卡方统计量与χ2分布临界值,得出采样是否符合假设PMF这个结论。
给了CEO星座分布数据,我们可以用卡方检验测试它是否符合均匀分布。
也可以给出人口各种族分布的数据,测试陪审团成员分布是否代表整体人口分布,这里Benchmark不是均匀分布,而是人口分布数据集。
所以卡方检验适用于任意已知分布,参考的标准都是这个已知分布生成的理论期望值。
我们希望检查数据是否符合正态分布,以便应用t检验。那么如何检验一个样本是否来自正态分布呢?
我们可以假设这个样本数据来自一个μ,σ^2不明的正态分布。那么我们以样本的平均数作为μ^帽,样本标准差的平方作为σ^帽^2。这样我们就得到一个以μ^帽,σ^帽^2参数的正态分布。
我们可以使用K-S检验来检查样本分布与这个μ^帽,σ^帽^2正态分布的差异。K-S检验统计量为两个累积分布函数之间的最大距离。
但直接使用K-S检验统计量的分布会依赖参数μ,σ^2,而我们不知道它们的值。所以我们需要把统计量转换为一个无参数分布。
我们可以把每个样本点X减去μ^帽,除以σ^帽。这样每个样本点就可以表示为Z=(X- μ^帽)/σ^帽,其中Z依据标准正态分布N(0,1)。
然后我们检查标准化后样本的累计分布与标准正态分布之间的最大距离。这个统计量的分布不再依赖μ,σ^2,我们就可以进行K-S检验了。
常用的K-S检验有柯莫格罗夫-斯米尔诺夫检验、克莱默-冯米斯检验和安德森-丹灵检验。它们在不同情况下功效不同,如果不能确定假设选择,可以同时运行几个检验。
我们总结正态性检验的主要步骤:
假设样本来自未知μ,σ^2的某个正态分布
估计μ^帽和σ^帽^2
标准化每个样本点为Z=(X- μ^帽)/σ^帽
计算标准化后样本的累积分布与标准正态分布的最大距离
检验这个最大距离统计量是否显著,即样本是否来自μ^帽,σ^帽^2正态分布
如此我们就可以在未知的参数情况下,检验样本是否满足正态性假设。这对应用许多统计检验如t检验至关重要。
回归分析是一种统计方法,用于建立因变量与一个或多个自变量之间的相关性。它可以用来预测一个变量值基于其他变量值,或者解释两个变量之间的相关关系。
一元回归分析中,只考察一个自变量与一个因变量之间的关系。模型通常为:
Y = a + bX + ε
其中:
一元回归的目的是根据已有数据对a和b进行估计,找出最能解释数据关系的回归线。
多元回归分析中,考察多个自变量与一个因变量的关系。模型通常为:
Y = a + b1X1 + b2X2 + … + bpXp + ε
其中:
多元回归的目的是估计a以及每个自变量的回归系数b,找到能最好解释数据关系的回归面。
通过最小两乘法或最大似然估计法,利用样本数据可以求得截距参数a与斜率参数b的估计值aˆ与bˆ。
ε代表模型无法解释的其他影响因素。分布假设常见于均值为0的正态分布。残差分析重要性在于检验模型是否合理。
通过t检验或F检验可以检验参数是否显著,通过置信区间可以给出参数的范围估计。
回归分析广泛应用于经济、医学、工程等许多领域,解决预测和解释问题。例如预测房价、预测病程、预测股票价格变动等。
线性回归模型为:
\[Y=X\beta +\epsilon\]其中,$Y$是观察值向量,$X$是自变量矩阵,$\beta$是参数向量,$\epsilon$是误差项向量。
最小二乘估计器选择的参数${\hat{\beta}}$使残差平方和$\sum_{i=1}^{n}(Y_{i}-X_{i}{\hat{\beta}})^{2}$取最小值。
将残差平方和展开为:
\[\|Y-X\\beta\|^{2}=\\|Y\\|^{2}+\\|X\\beta\\|^{2}-2Y^{T}X\\beta\]对$\beta$求导为0,得到 normal equations:
\[X^{T}X\\hat{\\beta}=X^{T}Y\]如果$X^{T}X$可逆,那么最小二乘估计器就是:
\[\\hat{\\beta}=(X^{T}X)^{-1}X^{T}Y\]如果$X^{T}X$不可逆,那么最小二乘估计器是不唯一的。
$X^{T}X$不可逆当存在非零向量$V$,使$X^{T}XV=0$时。
如果样本数量$n$小于参数数量$P$,则$X^{T}X$一定不可逆。
因此,最小二乘估计器只有在$n\geq P$的条件下,才能得出唯一的解。这是线性回归模型的一个基本假设。
在观测值带有高斯噪声的情况下,我们构建了最小二乘估计器来估计β。
最小二乘估计器βˆ符合:
βˆ = β + N(0, σ2(X’X)-1)
这里N代表multivariate高斯分布。
由于σ2实际上未知,我们需要额外的信息来同时推断β和σ2:
σ^2/(σ2)~χ2(n-p)
βˆ和σ^2是独立的。
我们兴趣在测试回归系数βj是否为0:
H0: βj = 0 H1: βj ≠ 0
如果βj=0,则变量Xj将完全离开回归方程。
由于模型属于高斯型,我们可以使用t检验。
求解βˆj的分布,可以得到:
βˆj ~ N(βj, σ2(X’X)-1jj)
其中(X’X)-1jj表示对角元素。
所以βˆj就符合t分布,可以进行t检验。
Bayesian统计学与频率统计学的不同之处在于:
频率统计学假设观察数据是随机生成的,然后对数据生成过程做一些假设,比如独立同分布或者正态分布。
而Bayesian统计学假设生成参数的过程是一个两层过程:
第一层随机生成参数值
给定参数值,第二层随机生成观察数据
Bayesian允许将个人的先验知识(prior belief)纳入统计分析中。
例如,估计人口中女性比例P时,我们可能会认为P很有可能接近0.5,但不一定完全等于0.5。这就是我们对P的参数的先验知识。
Bayesian统计学的目的是将先验知识转变为后验分布(posterior distribution),也就是获取数据后的新知识。
它通过贝叶斯公式,将先验分布与似然函数相乘,得出后验分布。随着更多数据的收集,后验分布将越来越接近真实分布。
举例来估计人口中女性比例P:
收集样本数据x1,…,xn,假设它们服从参数P的伯努利分布
我们的先验知识认为P很可能在0.4-0.6间,95%可能在0.3-0.8间
通过贝叶斯公式,将先验知识与样本数据结合,得到后验分布,更新对P的参数估计
Bayesian统计广泛应用于医学、生物学、机器学习等领域。它让统计分析能够很好地结合实际问题中的先验知识。
在贝叶斯统计推理中,我们必须为参数引入先验概率分布。通常使用先验来表达我们对参数的领域知识。
除此之外,也有一些原则化的选择先验方法,比如非信息性先验。如果参数集为有限集合,则取均匀分布;如果为无限集合,可以考虑取 Jeffreys 先验。
Jeffreys 先验的形式为参数信息量的开方。如果仅有一个参数,则 Jeffreys 先验与参数的最大似然估计量的标准差成正比。
在高斯设置中,Fisher信息量正巧等于单位矩阵。这对应一个不适当的先验,即任何位置的高斯中心都相同。
选取 Jeffreys 先验有一个优点,即与参数变换不变。如果从θ变换到φ(θ),那么新参数φ下的Jeffreys先验实质上等于φ下的Fisher信息量的开方。
通过变变量法可以证明这一点。先验将张力为新参数下的概率密度,并乘上θ向φ的变换量的导数。
贝叶斯推理的结果是后验分布,而非单一估计值。后验分布可以用于建立置信区间来进行推断。
贝叶斯置信区间的定义是:给定后验分布,区间R中θ值出现的概率大于1-α。R可以是任意子集,不一定是一个区间。
一种计算置信区间的方法是,根据后验分布的α水平截面,找到后验概率大于1-α的最大参数子集。
主成分分析(PCA)是一种无监督学习方法,用于降维和数据可视化。通过PCA可以将高维数据投影到低维空间中,以此来减少冗余和噪声。
假设有n个样本,每个样本有d个属性,那么可以用一个n*d的矩阵X来表示所有样本数据,其中每一行表示一个样本,每一列表示一个属性。
数据的均值向量μ是一个d维列向量,每个分量是对应的属性的平均值。
数据的协方差矩阵Σ是d*d矩阵,Σij表示第i个属性和第j个属性的协方差。
协方差矩阵Σ可以表示为数据矩阵X的协方差:Σ = E[(X-μ)(X-μ)^T]
对协方差矩阵Σ进行特征值分解,可以得到d个特征值λ1≥λ2≥…≥λd和相应的特征向量。
特征值表示该特征向量对应的原属性的变异贡献率。特征向量是原空间到新空间的投影方向。
保留特征值最大的k个特征向量,对应的特征值之和占协方差总和的百分比作为保留维数的标准。
将原高维样本通过特征向量矩阵W^T进行降维映射:Z=XW
W是nk矩阵,其列向量是被保留的前k个特征向量。Z是降维后的nk矩阵。
这样可以找到数据分布的主要模式,同时减少数据维度,实现降维。
无监督学习,直接根据样本数据进行学习。
可解释性强,通过特征值和贡献率可以明确低维空间的物理意义。
降维后信息损失最小。
降维后的数据还是线性相关的,易于后续分析。
给定样本数据向量 $X_1,X_2,…,X_n$,可以构造样本或经验协方差矩阵S:
S = ∑{i=1}^{n}(X_i - X{avg})(X_i - X_{avg})^T/n
根据线性代数定理,S具有特征值分解:
S = PDP^T
其中P是一个正交矩阵,D是一个对角矩阵,对角元素为S的特征值$\lambda_1>\lambda_2>…>\lambda_d$。
将数据进行主成分变换:
Y_i = P^TX_i
则Y_i的样本协方差矩阵为对角矩阵D。
这意味着不同维度的Y_i变量之间是独立的,如果假设数据服从高斯分布,那么不同维度之间也是独立的。
特征值$\lambda_1$表示Y在第一主成分方向(P的第一列向量)上的方差大小。 Generalizing此思路,$\lambda_j$表示Y在第j主成分方向上的方差。
主成分变换将原始高维数据投影到新的坐标系中,这个新的坐标轴正好符合数据的方差大小,第一主成分方向的方差最大,以此类推。
主成分分析允许将原始高维数据投影到一些主要主成分 DIRECTIONS组成的低维空间,这样可以在保留大部分信息的情况下视觉化和计算数据。
广义线性模型是线性模型的广义化。它放松线性回归模型中两个假设:
线性回归模型假设响应变量Y服从正态分布,其条件概率分布密度条件期望和方差。广义线性模型允许响应变量Y来自指数家族分布,如高斯分布、伽玛分布等。
线性回归模型假设响应变量Y的条件期望EQ为线性回归于预测变量X,即μ(X)=X^Tβ。广义线性模型通过连接函数G来放松这一假设,使得μ(X)=G^(-1)(X^Tβ)成立,其中G^(-1)可以是任意函数。
广义线性模型由以下两个要素构成:
随机成分:响应变量Y给定预测变量X的条件概率分布,可以来自指数家族任意分布。
连接函数:用以将预测变量X线性组合X^Tβ映射到响应变量Y的条件期望EQ的取值范围。它使随机成分和线性预测部分兼容。
常见连接函数有对数链接函数、正sin链接函数等。利用连接函数,广义线性模型可以适用于伯努利分布、泊松分布、高斯分布等多种问题。它拓展了线性回归的应用范围,是非常有用的统计模型。
广义线性模型允许响应变量的概率分布属于指数族。指数族可以归纳随机变量,如果条件密度函数可以写成:
f(x | θ) = exp(xθ - b(θ) + c(x, φ)) |
其中b(θ)完全描述了分布,φ是分散参数。
常见的 Gauss分布和泊松分布等就属于这个族。把响应变量分布限定在这个族中,可以利用它的特性进行参数估计。
这里L是对数似然函数logf(x | θ),取θ导数后求期望为0. |
这里取对数似然函数对θ二阶导数后,期望等于负值第一阶导数期望的平方。
这两个性质将在参数估计中派上用场。
对一个独立观测x来说,其对数似然函数为:
L=logf(x | θ)=xθ-b(θ)+c(x,φ) |
这里根据指数族的定义就可以得到对数似然函数的表达式。利用这个表达式就可以进行最大似然估计来求θ。
在一般线性模型中,我们关注的是Y给定X的条件概率分布P(Y | X)。我们假设这个条件概率分布属于指数家族分布,其概率密度函数(或概率质量函数)具有以下形式: |
p(y | x) = b(y,θ)exp{yθ-a(θ)} |
其中θ为标量参数。
我们不直接假设θ依赖于X,而是通过联系函数G建立θ与X之间的关系:
G(μ)=Xβ
μ为条件期望E(Y | X),θ为μ对应的指数家族分布的参数。 |
当联系函数G选择为 canonical link时,即G为密度函数的对称函数的反函数,我们就有简单的线性预测模型:
θ = Xβ
我们采用最大似然估计法来估计β。将条件概率分布的似然函数写成β的函数形式:
L(β) = ∏p(yi|xi) = ∏ b(yi,θi)exp{yiθi - a(θi)}
其中θi可以表示为Xiβ。令对数似然函数对β求导等于0,我们就可以得到最大似然估计β̂。
通过联系函数,我们建立了Y与X之间的非线性关系,但将模型写成β的函数形式,可以使用线性模型中的估计方法来估计参数β。这就是一般线性模型的基本思想。
一般化线性模型是广泛使用的统计建模框架。它能够描述存量变量和持续变量之间的关系。在一般化线性模型中:
观测变量Y被认为来自指数分布族。常用的是正态分布或泊松分布。
线性预测值η和自变量X之间存在某种联系。常用的形式是η=Xβ,这里β是模型参数。
游别Y的期望μ依赖于预测值η,关系为g(μ)=η。这里g()是链接函数,如对数函数或虚数函数。
一般化线性模型能够依靠迭代法对参数β进行估计,从而建立Y和X之间的关系模型。其中木斯信息项法和权重最低平方法是两个经常使用的估计方法。
木斯信息项法是一种二阶最优化法,用于极大似然估计β。其基本步骤如下:
给定βk,计算亚似然函数的梯度∇lnL(βk)。
计算木斯信息项I(βk)=E(-∇2lnL(βk))。
使用梯度下降法更新βk+1=βk- I(βk)-1∇lnL(βk)。
重复步骤1-3,直到β收敛。
在计算中,需要定义Y∗,μ∗等变量以简化表达式。此外,需要计算μ,H,G等函数的导数。通过条件期望能够消去误差项,直接得到木斯信息项。
权重最低平方法是一种等价于木斯信息项法的一阶算法。其思路是:
给定βk,计算μi,Hi等函数值。
设置权重Wi为函数Hi′/G′(μi)。
将β估计问题等价为带权重的最小平方法:βk+1=(XTWX)-1XTWy∗
重复上述过程,每次更新β和相应的μ,Hi,Wi等函数值,直到β收敛。
它把β的迭代估计问题分解成一系列带权重的线性最小二乘问题求解。从而简化了计算过程,但原理等价于木斯信息项法。