‏鬼泣-巅峰之战‏代‏练‏价‏格‏表‏是‏怎‏样‏的‏

残差(Residual): 基于回归方程的预测值與观测值的差

离群点(Outlier): 线性回归(linear regression)中的离群点是指对应残差较大的观测值。也就是说当某个观测值与基于回归方程的预测值相差較大时,该观测值即可视为离群点 离群点的出现一般是因为样本自身较为特殊或者数据录入错误导致的,当然也可能是其他问题

杠杆率(Leverage): 当某个观测值所对应的预测值为极端值时,该观测值称为高杠杆率点杠杆率衡量的是独立变量对自身均值的偏异程度。高杠杆率嘚观测值对于回归方程的参数有重大影响

影响力点:(Influence): 若某观测值的剔除与否,对回归方程的系数估计有显著相应则该观测值是具囿影响力的,称为影响力点影响力是高杠杆率和离群情况引起的。

Cook距离(Cook's distance): 综合了杠杆率信息和残差信息的统计量

使用最小二乘回归時,有时候会遇到离群点和高杠杆率点此时,若认定离群点或者高杠杆率点的出现并非因为数据录入错误或者该该观测值来自另外一个總体的话使用最小二乘回归会变得很棘手,因为数据分析者因为没有充分的理由剔除离群点和高杠杆率此时稳健回归是个极佳的替代方案。稳健回归在剔除离群点或者高杠杆率点和保留离群点或高杠杆率点并像最小二乘法那样平等使用各点之间找到了一个折中其在估計回归参数时,根据观测值的稳健情况对观测值进行赋权简而言之,稳健回归是加权最小二乘回归或称文艺最小二乘回归。

MASS 包中的 rlm命囹提供了不同形式的稳健回归拟合方式接下来,以基于Huber方法和bisquare方法下的M估计为例来进行演示这是两种更为基本的M估计方法。在M估计中要做的事情是在满足约束 ∑ i=1 n wi (yi-x'b) xi' = 0 时,求出使得 ∑wi2ei2 最小的参数由于权重的估计依赖于残差,而残差的估计又反过来依赖于权重因此需用迭玳重复加权最小二乘( ,这里下脚标表示求解过程中的迭代次数而不是通常的行标或者列标,持续这一过程直到结果收敛为止。Huber方法丅残差较小的观测值被赋予的权重为1,残差较大的观测值的权重随着残差的增大而递减具体函数为:w(e)={1 for |e|<=kk|e| for |e|>k . 而bisquare方法下,所有的非0残差所对应觀测值的权重都是递减的

该数据集共有51个观测值。接下来用数据集中的poverty 和 single 变量来预测 crime.

先对数据进行OLS回归重点观察回归结果中的残差、擬合值、Cook距离和杠杆率。

从图上看出第 9, 第25和第5个观测值可能是离群点,看看这些观测值所属的是哪些州

可以猜测,DC, Florida 和Mississippi这三个地方所对應的观测值可能具有较大的残差或者杠杆率下面观察一下Cook距离较大的观测值有哪些。在判断Cook距离大小的时候通常采用过的经验分界点昰Cook距离序列的4/n处,其中n是观测值的个数

本来应当先删除DC所对应的观测值,因为DC对应的并不是州然而,由于DC所对应的Cook距离较大保留DC有助於我们进行观察下面生成一个absr1变量, 其对应的为残差序列的值,取出残差值较大的观测值:

现在转向稳健回归再提示一下,稳健回归是通过迭代重复加权最小二乘(iterated re-weighted least squares IRLS)来完成的。其对应的R函数是MASS包中的rlmIRLS对应的有多个权重函数( weighting functions),首先演示一下Huber方法 演示过程中,重点關注IRLS过程得出的权重结果

容易看出来,观测值的残差值越大其被赋予的权重越小。结果表明Mississippi所对应的观测值被赋予的权重是最小的其次是Florida所对应的观测值,而所有未被展示的观测值的权重皆为1由于OLS回归中所有观测值的权重都为1,因此稳健回归中权重为1的观测值越哆,则稳健回归于OLS回归的分析结果越相近

接下来,用bisquare方法来进行稳健回归过程

Mississippi观测值被赋予了极小的权重,并且两种方法估计出的回歸参数也相差甚大通常,当稳健回归跟OLS回归的分析结果相差较大时数据分析者采用稳健回归较为明智。稳健回归和OLS回归的分析结果的較大差异通常暗示着离群点对模型参数产生了较大影响所有的方法都有长处和软肋,稳健回归也不例外稳健回归中,Huber方法的软肋在于無法很好的而处理极端离群点而bisquare方法的软肋在于回归结果不易收敛,以至于经常有多个最优解

除此之外,两种方法得出的参数结果极為不同尤其是single变量的系数和截距项(intercept)。不过一般而言无需关注截距项,除非事先已经对预测变量进行了中心化此时截距项才显的有些鼡处。再有 变量 poverty的系数在两种方法下都不显著,而变量 single则刚好相反都较为显著。

我要回帖

 

随机推荐