常用统计推断方法

本文主要介绍基于参数估计和假设检验的统计推断应用方法,主要包括:

(1)分类数据分析 (统计的是各类别样本频数)

① 拟合优度分析:检验一个分类变量是否符合某一理论分布;或一个分类变量(可以是多分类)对另一个二分类变量对影响是否显著;

② 独立性检验(或列联分析):检验两个分类变量交叉是否是独立的;

(2)数值型数据分析 (统计的是样本的某个指标)

① 方差分析:检验分类变量对数值型变量对影响是否显著;(若分类变量为二分类变量则可以使用z检验或t检验)

② 回归分析:用于预测一个或多个自变量对某一个因变量的影响趋势,量化自变量对因变量的影响程度

1. 分类数据分析

image-20220306154751657

1.1 拟合优度检验

分析的是分类变量各类别是否有显著性差异,如某种比例指标,如满意度、生存率等。

男女生对食堂的满意度为例进行解释:

满意度本质也是一个分类变量 $X$ = “是否满意”,其中有两个变量值$x_1$ = “满意”,$x_2$ = “不满意”,假设抽样一共1000人,一共300人满意,其中男生100人,女生200人,则理论分布为:

$P(X = 满意|Y=男生) = P(X = 满意|Y=女生) = 0.3 $ ,

实际分布则为:

$P(X_0 = 满意|Y_0=男生) = 0.1;P(X = 满意|Y=女生) = 0.2 $

检验的就是检验样本的实际频数分布是否和理论频数分布有实际差异,使用的检验统计量为($\chi^2$统计量的推断过程):

image-20220306162750746

若检验结果显著,则说明差异显著,不同性别对食堂满意度有显著差异。

一、基本思想

拟合优度检验主要用于检验 一个分类变量各类别的观察频数与期望频数是否有显著性差异, 或者说是检验一个分类变量各类别观察频数的分布是否符合某一理论分布。

二、基本步骤

第1步:提出假设

第2步:计算期望频数和检验统计量

第3步:做出决策

1.2 独立性检验

注意区分:

拟合优度检验检验的是一个分类变量各类别的某种特征是否有显著差异,检验的是这种特征是否与该分类变量有关,这种特征是属于该分类变量的,问题一般为 “检验×××分类变量各类别的×××是否有显著差异”

而独立性检验则是分析两种分类变量之间的相关关系,一般没有从属关系,问题一般是 “检验×××分类变量跟×××变量是否有相关关系” ,如”性别对身高是否有影响“。注意问题是要分析某种分类变量的某种特征还是分析两个分类变量的关系!

一、基本思想

因为 独立性检验 主要是用于分析判断两个分类变量是否独立。它是在假设两分类变量独立的情况下计算出理论频数,从而再与观察频数作比较,看是否有显著性差异。

二、基本步骤:

第1步:提出假设

第2步:计算期望频数和检验统计量

第3步:做出决策

第4步:若拒绝原假设,还可对两分类变量的相关性程度进行进一步测量,测量方法有:① $\varphi$相关系数;② c系数; ③ V系数。

2. 数值型数据分析

2.1 方差分析

image-20220306170826538

1. 方差分析的基本思想是什么?

方差分析是通过数据误差来源的分析来判断不同总体的均值是否相等,进而判断分类型自变量对数值型因变量是否有显著性影响。其基本思想如下:

(1) 误差分解

在方差分析中,数据的误差是用平方和来表示的,总平方和可以分解为组间平方和与组内平方和。组内误差只包含随机误差,而组间误差既包含随机误差,也包含系统误差。

(2) 误差分析

若组间误差中只包含随机误差,而没有系统误差,则组间误差和组内误差经过平均后的比值就应接近于1;反之,若组间误差包含系统误差,那比值就会大于1。当这个比值大到某种程度时,就认为因素的不同水平之间存在显著差异,即分类型自变量对数值型因变量有影响。

2. 什么是方差分析?它与总体均值的t检验或z检验有什么不同?其优势是什么?

(要检验多个总体均值是否相等,为什么不作两两比较,而用方差分析法?)

方差分析是通过数据误差来源的分析来判断不同总体的均值是否相等,进而判断分类型自变量对数值型因变量是否有显著性影响。

差异:

总体均值的t检验或z检验,一次只能研究两个样本,如果要检验多个总体的均值是否相等,两两比较那会很繁琐,且多次检验还会使犯第一类错误的概率相应增加;

方差分析则是同时考虑所有样本,因此排除了错误累积的概率,从而犯第一类错误的概率会小很多。

优势:

方差分析不仅可以提高检验效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。

3. 简述方差分析的结构并对其进行解释。

方差分析是通过数据误差来源的分析来判断不同总体的均值是否相等,进而判断分类型自变量对数值型因变量是否有显著性影响。方差分析的结构如下:

(1) 组内误差

它来自水平内部的数据误差,反映一个样本内部数据的离散程度,只含随机误差。反映组内误差大小的平方和称为组内平方和,记为SSE。它反映了每个样本内各观测值的离散状况。

(2) 组间误差

它来自不同水平之间的数据误差,反映不同样本之间数据的离散程度,包含随机误差和系统误差。反映组间误差大小的平方和称为组内平方和,记为SSA。它反映了样本均值之间的差异程度。

(3) 全部数据误差

它包含了随机误差和系统误差在内的所有误差。反映全部数据误差大小的平方和称为总平方和,记为SST。

总平方和(SST)=组内平方和(SSE)+组间平方和(SSA),它反映全部观测值的离散状况。

2.1.1 单因素方差分析(完全随机化设计)

方差分析主要是通过检验各总体的均值是否相等来判断一个分类型自变量对一个数值型因变量是否有显著影响。

它是通过对数据误差来源的分析来判断不同总体均值是否相等。

基本步骤如下:

(1) 方差分析的基本假定及检验

  1. 正态性假定: 每个总体都应服从正态分布。(检验方法有:P-P图、Q-Q图、Shapiro-Wilk检验、K-S检验等)

  2. 方差齐性假定: 每个总体的方差$\sigma^2$必须相同。(检验方法有:Hartley检验、Bartlett检验、修正的Bartlett检验、Levene检验等)

  3. 独立性假定: 各观测值之间相互独立。(实验前确保是独立的)

(2)效应检验

第1步:提出假设

​ 原假设:$H_0:\alpha_i = 0(i=1,2,…,a)$(因素A没有处理效应)

​ 备择假设:$H_1:\alpha_i$至少有一个不为0(因素A有处理效应)

第2步:计算单因素方差分析表

image-20220306164900612

第3步:做出决策。 给定显著性水平$\alpha$ ( 一般取0.01或0.05),先用样本数据计算出P值,若P<$\alpha$则拒绝原假设;否则就不拒绝原假设。

第4步: 若拒绝原假设,还需对自变量和因变量进行关系强度测量($R^2 = \frac{SSA}{SST}$)和多重比较(用来进一步检验到底哪些均值之间存在差异。常用LSD,HSD方法)。

2.1.2 双因素方差分析

一、 只考虑主效应的双因素方差分析(随机化区组设计)

二、 考虑交互作用的双因素方差分析(析因设计)

方差分析主要是通过检验各总体的均值是否相等来判断两个分类型自变量对一个数值型因变量是否有显著影响。它通过对数据误差来源的分析来判断不同总体均值是否相等。

基本步骤如下:

(1)方差分析的基本假定及检验

(2)效应检验

第1步:提出假设

检验因素A的假设:

​ 原假设:$H_0:\alpha_i = 0(i=1,2,…,a)$(因素A没有处理效应)

​ 备择假设:$H_1:\alpha_i$至少有一个不为0(因素A有处理效应)

检验因素B的假设:

​ 原假设:$H_0:\beta_i = 0(i=1,2,…,b)$(因素A没有处理效应)

​ 备择假设:$H_1:\beta_i$至少有一个不为0(因素A有处理效应)

检验交互效应的假设:

​ 原假设:$H_0:\gamma_{ij} = 0$(无交互效应)

​ 备择假设:$H_1:\gamma_{ij}$至少有一个不为0(有交互效应)

第2步:计算方差分析表

image-20220306165919218

第3步:做出决策。 给定显著性水平$\alpha$ ( 一般取0.01或0.05),先用样本数据计算出P值,若P<$\alpha$则拒绝原假设;否则就不拒绝原假设。

第4步: 若拒绝原假设,还需对自变量和因变量进行关系强度测量($R^2 = \frac{SSA}{SST}$)和多重比较(用来进一步检验到底哪些均值之间存在差异。常用LSD,HSD方法)。

2.1.3 方差齐性检验

图示法: 箱线图、残差图(通过观察各样本数据的离散程度来比较方差是否相等)

检验法:

Hartley检验:仅适用于样本量相等的场合。

Bartlett检验:样本量相等或不等均可,但是每个样本量不得低于5.

Bartlett检验:在样本量较小或较大,相等或不等的情况下均能使用。

Levene检验:它既可以用于正态分布总体,也可以用于非正态分布总体。

2.1.4 多重比较

多重比较是通过均值之间的配对检验来找出到底哪些处理之间存在显著差异。事前比较的常用方法有LSD法、Dunnett-t法;事后比较的常用方法有SNK法、Scheffe法;事前比较和事后比较都可以采用的方法有Bonferroni法、Sidak法。这些方法具体使用时的特点如下:

LSD法: 即最小显著差法;是最简单的比较方法之一,它其实只是t检验的一种简单变形,未对检验水准做任何校正,只是在标准误计算上充分利用了样本信息。

Dunnett-t法: 常用于多个实验组与一个对照组间的比较,因此使用此法时,应当指定对照组;

SNK法: 是多重比较方法中检验尺度较严格的方法,也就是q检验;

Scheffe法: 它实质上是对多组均数间的线性组合是否为0做假设检验,多用于各组样本容量不等时的比较;

Sidak法: 它是在LSD法上加入了Sidak校正,通过校正降低每次两两比较的一类错误率,达到整个比较最终甲类错误率为α的目的;

Bonferroni法: 它是Bonferroni校正在LSD法上的应用。

上述这些方法,使用的前提是各组均满足正态性和方差齐性,若满足正态性而不满足方差齐性时(此时尽量不作多重比较),可适宜采用Games-Howell等多重比较方法。

2.2 回归分析

image-20220306171018318

2.2.1 一元线性回归分析

(1) 数据清洗与标准化

  1. 数据清洗:主要是为了保证数据的完整性与准确性。

  2. 数据标准化:主要是为了消除量纲和变量自身变异大小和数值相差较大的影响。

(2) 相关性分析

  1. 图形法:散点图

  2. 相关系数测度:用样本相关系数$r$估计总体相关系数$\rho$(用t检验判断显著性)

(3) 参数估计

  1. 建立一元线性回归模型:$y = \beta_0 + \beta_1 x + \varepsilon$

  2. 利用最小二乘法(OLS)计算参数的估计值:$\hat{\beta_0},\hat{\beta_1}$

  3. 得出估计的回归方程:$y = \hat{\beta_0} + \hat{\beta_1 x} $

(4) 显著性检验

  1. 拟合优度检验:

​ ①判定系数$R^2 = \frac{SSR}{SST}$。

​ ②估计标准误差:$s_e = \sqrt{\frac{SSE}{n-2}}$ 。

  1. 回归系数的显著性检验:t检验

(5) 古典假定检验

  1. 正态性检验:图示法有P-P图或Q-Q图等,检验法有W检验和K-S检验等

  2. 方差齐性检验:检验方法有Spearman等级(秩)相关检验、Prak检验、Glejser检验、Goldfeld-Quandt检验、White检验等

  3. 自相关检验:检验方法有DW检验,BG检验等

(6) 回归调优与预测: 若各模型假定成立,则可使用估计的回归方程进行预测;若不成立,则需要重新对模型进行调优。

2.2.2 多元线性回归分析

(1) 确定模型需要考虑的多个自变量,并假定因变量与各自变量之间是线性关系。

(2) 数据清洗与标准化

  1. 数据清洗:主要是为了保证数据的完整性与准确性。

  2. 数据标准化:主要是为了消除量纲和变量自身变异大小和数值大小的影响。

(3) 相关性分析

  1. 图示法:散点图(用于展示两个变量之间的关系),气泡图(用于展示三个变量之间的关系),矩阵散点图(用于展示多个变量之间的关系)

  2. 相关系数测度:用样本相关系数$r$估计总体相关系数$\rho$(用t检验判断显著性)

(4) 参数估计

  1. 建立一元线性回归模型:$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 +…+\beta_k x_k +\varepsilon$

  2. 利用最小二乘法(OLS)计算参数的估计值:$\hat{\beta_0},\hat{\beta_1},\hat{\beta_2},…,\hat{\beta_k}$

  3. 得出估计的回归方程:$y = \hat{\beta_0} + \hat{\beta_1 x-1} + \hat{\beta_2 x_2} +…+ \hat{\beta_k x_k}$

(5) 显著性检验

  1. 拟合优度检验:

​ ①调整的多重判定系数$R_a^2 = 1 - (1-R^2) ×\frac{n-1}{n-k-1}$,其中,$R^2 = \frac{SSR}{SST}$。

​ ②估计标准误差:$s_e = \sqrt{\frac{SSE}{n-k-1}}$ 。

  1. 回归方程的显著性检验(F检验):用于检验因变量同多个自变量的整体线性关系是否显著。

  2. 回归系数的显著性检验(t检验):用于判断每个自变量对因变量的影响是否都显著。

(6) 古典假定检验

  1. 正态性检验:图示法有P-P图或Q-Q图等,检验法有W检验和K-S检验等

  2. 方差齐性检验:检验方法有Prak检验、Glejser检验、White检验等

  3. 自相关检验:检验方法有DW检验,BG检验等

  4. 无多重共线性:一般通过判定系数或方差扩大因子判断,克服方法有最优子集法、逐步回归法、岭回归法等

(7) 回归调优与预测:若各模型假定成立,则可使用估计的回归方程进行预测;若不成立,则需要重新对模型进行调优。

2.2.3 模型的古典假定检验

一、 正态性检验

正态性假定对估计回归方程的参数影响不大,但对于假设检验和预测来说是必要的,因为可能会造成结果错误。其检验方法如下:

图示法:

  1. 直方图或茎叶图: 若数据近似服从正态分布,则图形的形状与正态曲线应该相似。

  2. P-P图或Q-Q图: 若数据近似服从正态分布,则观测值和理论值形成的散点大致分布在第一象限的对角线上。

计算法:

  1. 偏态系数(SK)和峰态系数(K): 当SK=K=0时,分布呈正态。因此,若数据近似服从正态分布,其SK和K都接近于0。

  2. W检验(适用于小样本)和D检验: 通过正态性检验计算P值,当P值大于给定的显著性水平时,表明数据服从正态分布。

均值线性回归是否要求变量服从正态分布?

  1. 针对解释变量:因为在古典假定中要求其是非随机变量,故不会有正态性要求。

  2. 针对随机误差项:在古典假定中,要求其为正态分布。

  3. 针对被解释变量:虽然没有明确要求其为正态分布,但在古典假定满足的前提下,也是符合正态分布的。

若不服从正态,怎么解决?

  1. 增大样本量

  2. 利用Box-Cox变换将其变换成符合正态性的变量

二、 异方差检验

1. 原因: 模型中省略的解释变量、测量误差、截面数据中总体各单位的差异、模型函数形式的设定错误。

2. 后果:

最小二乘估计量不满足有效性,且参数方差的估计量也是有偏的;

参数的显著性检验和置信区间的建立发生困难;

预测精确度降低。

3. 检验方法

图示法: 利用因变量y(或残差e)与解释变量x的散点图判断,若样本散点图中y的分布(或e的取值)随着x而变化则可能出现异方差。

Spearman等级(秩)相关检验: 这是一种非参数检验,它假设Spearman等级(秩)的相关系数为0,若拒绝该假设则说明存在异方差。

Prak检验和Glejser检验: 两种方法都是将随机误差项的方差看作是解释变量的某个函数,通过检验两变量之间的回归方程来判断是否存在异方差。其中Glejeser不仅可以说明异方差的存在,还可以确定其具体形式。

White检验: 它通过分析方差是否与解释变量有某些形式的联系来判断异方差性。它能判断出是由哪一个变量引起的异方差,适用于观测值为大样本的情形。

4. 异方差的修正

加权最小二乘法: 它是通过对原模型加权,使其变成一个新的不存在异方差性的模型,然后再采用普通最小二乘法估计其参数。

采用方差的稳健估计量: 通过构造异方差性一致性方差来解决异方差性问题,它的优点在于不需要知道异方差性的具体形式。

模型的对数变换: 通过对线性模型作对数变化降低异方差性的影响。

三、 自相关检验(主要是时间序列中)

1. 原因: 被解释变量的自相关、解释变量的省略、随机项本身存在自相关、回归模型函数形式设定错误、经济变量的惯性作用

2. 后果:

最小二乘估计量不满足有效性,且参数方差的估计量也是有偏的;

参数的显著性检验和置信区间的建立发生困难;

预测精确度降低。

3. 检验方法

图示法:

  1. 绘制残差 的散点图,若 存在线性相关则表明随机项u存在自相关。

  2. 绘制残差时间序列图,如果 随时间t的变化存在明显的规律性,则随机项存在自相关。

DW检验: 适用于检验小样本的随机误差项一阶自相关。

BG检验: 它是基于拉格朗日乘数的检验,解决了不满足DW检验条件的情况,可以进行高阶自相关检验。

解决方案:一阶差分法、广义差分法、使用稳健方差估计量

2.2.4 残差分析(识别异常值X、Y)

一、 关于因变量Y异常值的识别

在残差分析中,一般认为超过 的残差为异常值,常用的残差有:

image-20220306172705587

二、 关于自变量X的异常值识别

  1. 用杠杆值 (或中心化杠杆值 )判断:如果其值大于2倍或3倍的平均杠杠值 (或中心化的平均杠杆值 )就是为异常值。

  2. 用库克距离判别:当 时,认为不是异常值;当 时认为是异常值。

异常值的处理方法:

1.删除含有异常值的记录

2.将异常值视为缺失值,交给缺失值处理方法来处理

3.用平均值来修正

4.不处理,单独对其分析

2.2.5 共线性诊断与变量筛选

一、共线性诊断

多重共线性有两种情形:1.完全多重共线性;2.不完全多重共线性。

  1. 产生原因主要有:

    经济变量之间具有共同变化趋势;利用截面数据建立模型也可能出现多重共性性;模型中包含滞后变量;样本数据的自身原因。

  2. 完全多重共线性违反了古典假定,它产生的后果有:

    参数的最小二乘估计量不确定且其方差变为无穷大。

  3. 不完全多重共线性没有违反古典假定,它产生的后果有:

    估计结果不好解释;参数估计值的方差增大;参数估计的置信区间变大;假设检验容易作出错误的判断。

  4. 检验

(1)通过散点图判断两变量的相关性

(2)通过相关系数判断相关性的大小

(3)采用经验判别,通常出现下列情况暗示存在多重共线性:

​ ① $R^2$较高;

​ ② 回归方程的F检验显著但回归系数的t检验大多都不显著;

​ ③ 容忍度:通常认为其值小于0.1时,存在严重的多重共线性。

​ ④ 方差扩大因子(VIF):通常认为其值大于10时,存在严重的多重共线性。(条件指数CI——划分100——1000)

二、变量筛选

克服多重共线性的方法

(1)直接经验法: 包括增加样本值、删去不重要的解释变量等。

(2)最优子集法: 通过对所有可能的变量组合模型一一进行测试,利用判别准则(如AIC,BIC等)得到最优的自变量组合。其缺点是计算量太大,适合于筛选变量较少的情况。

(3)逐步回归法: 与最优子集法类似,不同之处在于不对所有模型进行测试,而是采用向前选择、向后剔除的方式进行模型测试,然后通过判别准则选出最好的自变量组合。

(4)岭回归法: 是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。

(5)Lasso回归法: 它是一种压缩估计的方法,通过对最小二乘估计加入罚约束,使某些系数为0,从而筛选出一组合适的自变量。

(6)变量降维法: 主要有主成分回归(PRC)和偏最小二乘回归(PLS)两种方法。它们是通过把K个预测变量投影到m维空间(m<k),利用投影得到的不相关的自变量组合建立线性模型。它们的不同之处之处在于PRC选择自变量的方法与因变量无关,而PLS则考虑了与因变量的相关性。

其中,自变量选择方法有: 最优子集法、逐步回归法、Lasso回归法、变量降维法

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 归一
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信