描述统计学

本文主要介绍了数据分析统计基础——统计描述。数据分析的前提就是要学会观察数据,了解数据,统计描述包括对数据的图表描述和统计量描述,它能让我们对数据有一个直观的认识,比如数据是否完整、是否存在异常、服从什么分布、存在什么规律等,为数据预处理和数据分析做准备。

统计学基本概念

image-20220305122313250

1. 举例解释下列概念:总体、样本、参数、统计量

总体是包含研究对象的全部个体的集合,组成总体的每个元素称为个体。比如:要检验一批灯泡的使用寿命,这批灯泡构成的集合就是总体,每个灯泡就是一个个体。

样本是从总体中抽取的一部分元素的集合,构成样本的元素数目称为样本量。抽样的目的就是根据样本信息去推断总体特征。比如:从一批灯泡中随机抽取100个来推断这批灯泡的使用寿命,这100个灯泡就构成了一个样本,100就是该样本的样本量。

参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。由于总体数据通常是未知的,所以参数是一个未知的常数。

统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的,由于抽样的随机性,因此统计量是样本的函数。

2. 分类数据、顺序数据和数值型数据的区别。

按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。

数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。现实中所处理的大多数数据都是数值型数据。

分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可以称为定量数据或数量数据。

3. 统计的基本任务是什么?如何理解它们的内在关系?

统计的基本任务是对经济社会发展情况进行统计调查、统计分析,提供统计资料和统计咨询意见、实行统计监督。

统计的信息、咨询和监督三大职能,是相互作用、相互促进、相辅相成和密切联系的。信息职能是统计最基本的职能,是保证咨询和监督职能得以有效发挥的前提。咨询和监督职能是在信息职能基础上的拓展和深化,是在充分发挥信息资源作用的基础上,对统计整体效能的提高。

4. 什么叫变异、变量和变量值,试举例说明。

标志在同一总体不同总体单位之间的差别称为变异。例如:人的性别标志表现为男、女;年龄标志表现为20岁、30岁等。

变异标志又称为变量,是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。变量的具体取值称为变量值。具体包括:

(1) 分类变量(2) 顺序变量(3) 数值型变量

数据的描述统计

image-20220305114123496

数据收集

一、 数据的来源

从使用者的角度,分为间接来源和直接来源。

  1. 数据的间接来源

二手数据的搜集比较容易,采集数据的成本低,且作用广泛。局限

性在于二手资料并不是为特定的研究问题而产生的,即其针对性不够。

​ 二手数据的评估(3W1H——who why when how)

  1. 数据的直接来源——调查数据或实验数据

  2. 统计数据质量的基本标准:

(1)准确:用数字语言来反映客观实际;

(2)快速:统计信息服务必须具有时效性和紧迫性;

(3)完整:调查单位没有遗漏,调查项目没有缺陷,资料数据齐全;

(4)精炼:统计信息具有针对性、时效性、精确性。

二、 调查数据

  1. 概率抽样——包括等概率抽样和不等概率抽样

概率抽样也称为随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

其特点有:(1)抽样时是按一定的概率以随机原则抽取样本。(2)每个单位被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。

常用抽样方式有:

(1) 简单随机抽样

定义:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本。

特点:简单,直观。但抽样框不易构造,抽出单位分散、估计效率不高。

(2) 分层抽样

定义:将抽取单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。

特点:样本结构与总体结构类似,提高了估计精度,组织调查方便,还可对各层的目标量进行估计。

(3) 整群抽样

定义: 将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对选中群中的所有单位全部实施调查。

特点: 抽取样本时只需要群的抽样框,简化了工作量,但估计精度较差。

(4) 系统抽样

定义:将总体中的所有单位(抽样单位)按一定顺序排列,在规定范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其样本单位。

特点:操作简便,但对估计量方差的估计比较困难。

(5) 多阶段抽样

定义:采用类似整群抽样的方法,首先抽取群,然后再抽取群中的部分单位。这里群是初级抽样单位,第二阶段抽取的是最终抽取单位。

特点:常用于大规模抽样当中。

  1. 非概率抽样

指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。

非概率抽样一般可分为以下几种类型:

(1) 方便抽样:调查过程中由调查员依据方便原则抽样,其特点是成本低,易实施。

(2) 判断抽样:研究人员根据经验、判断和对研究对象的了解,有目的地选择样本,根据不同目的有重点抽样、典型抽样、代表抽样。

(3) 自愿抽样:被调查者自愿参加

(4) 滚雪球抽样:调查对象继续推荐另一些调查对象

(5) 配额抽样:类似分层抽样,先分类,再从各类中用方便抽样或判断抽样的方式选取样本单位。

  1. 概率抽样与非概率抽样的比较

非概率抽样的特点是操作简便、失效快、成本低,且对抽样中的统计学专业技术要求不高,适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备。

概率抽样则可用样本推断总体,对误差进行估计。

  1. 搜集数据的基本方法: 自填式、面访式、电话式、观察式。

三、 数据误差

统计数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类:抽样误差和非抽样误差

抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差,影响抽样误差大小的因素有样本量的大小和总体的变异性。通过增加样本量可以减小抽样误差,当样本量与总体单位相同时,就变成了普查,此时抽样误差就减小到0。

非抽样误差是指除抽样误差外的其他误差。抽样误差只存在于概率抽样中,而非抽样误差概率抽样和非概率抽样中都有。非抽样误差有如下几种类型:抽样框误差,回答误差,无回答误差,调查员误差,测量误差等。非抽样误差控制的重要方面是调查过程的质量。包括:调查员的挑选、调查员的培训、对调查过程进行控制的具体措施、对调查结果进行检验评估、对现场调查人员进行奖惩制度等。

抽样误差影响因素分析:

(1)样本量大小。在其他条件不变的情况下,样本量越大,抽样误差越小,当样本量为总体单位数目时即为普查,抽样误差则为0。

(2)总体标志变异程度。在其他条件不变的情况下,总体标志变异程度越大,抽样误差越大。

(3)抽样方法。一般而言,不重复抽样的抽样误差要小于重复抽样的抽样误差。当 时,两者差距不大。

(4)抽样组织方式。一般而言,分层抽样的抽样误差较小,而整群抽样的抽样误差较大。

四、简述搜集数据的基本方法及其弱点。

(1)自填式。自填式是指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。其弱点:首先,问卷回收率较低。其次,自填式方法不适合结构复杂的问卷,对调查的内容有所局限。此外,自填式方法的调查周期通常比较长,调查人员也需要对问卷的递送和回收方法进行仔细的研究和选择。最后,对于在数据搜集过程中出现的问题,一般难以及时采取调改措施。

(2)面访式。面访式是指现场调查中调查员与被调查者面对面,调查者提问、被调查者回答这种调查方式。其弱点:调查成本较高、调查质量的控制有难度、对于敏感性问题不易调查。

(3)电话式。电话式是指调查人员通过打电话的方式向被调查者实施调查。其弱点:由于调查工具是电话,因此对电话拥有率不高的地区调查会受到限制;拒访率较高,且访问时间不能太长。

五、分层抽样与整群抽样有何异同?它们分别适合什么场合?

相同点:都是需要事先按某一标志对总体进行划分的随机抽样。

不同点:分层抽样是先对总体进行结构分层,然后从不同层中独立、随机的抽取样本;整群抽样是将若干单位合并为一个群体,然后抽取这个群体里的所有对象进行调查。

数据预处理

数据预处理包括: 数据审核、数据筛选、数据排序。其中数据审核中,对原始数据包括完整性审核和准确性审核;对二手数据还包括适用性审核和时效性审核。

一、数据清洗: 主要是为了保证数据的完整性和准确性,包括处理缺失值、识别和处理异常值。

处理缺失值的方法有: 删除整行、人工填写、用均值或中位数代替,用回归分析预测等

识别异常值的方法有: (1)用切比雪夫不等式或标准分数判断,数据在 范围外的则为异常值。(2)用箱线图判断,数据小于 或大于 则为异常值。(3)用聚类的方法判断,单个数据自成一类的则为异常值。

处理异常值的方法有: 删除异常值、将其作为缺失值处理、对其单独分析。

二、数据标准化:主要是为了消除数据差异和量纲的影响。主要方法有离差标准化、标准差标准化和小数定标。

image-20220305115609745

数据描述——图表描述

一、 分类数据描述

(1) 频数分布表——单变量分布表

主要用于计数和汇总一个分类变量的数据,通过它可以使(结合题)的频数、比例等一目了然,从而为进一步分析做准备。

(2) 频数分布表——双变量列联表

主要用于计数和汇总两个分类变量的数据,通过它可以使(结合题)两个变量交叉分类的频数、比例等一目了然,从而为进一步分析做准备。

(3) 条形图

它可以用来展示各类别的绝对值和数据的分布特征。它通过相同宽度条形的长短来表示各类别的数值大小。绘制时,可以分别绘制(饮料类型)和(性别)两个简单条形图,也可只绘制一张(饮料类型)和(性别)的复式条形图,从而便于比较。

(4) 帕累托图

它可以用来比较各类别的频数大小。它是按各类别数据出现的频数多少排序后绘制的条形图,通过对条形图的排序,容易看出哪类数据出现得多,哪类数据出现的少。

(5) 饼图

它可以用来展示一个样本的结构。它通过一个圆来表示的数值大小,用圆内各扇形的角度来表示各类别的数值大小。绘制时,可以分别绘制(饮料类型)和(性别)两个简单饼图,也可只绘制一张(饮料类型)和(性别)的复式饼图,从而便于比较。

(6) 环形图

它可以显示多个样本(城市)各部分所占的相应比例,从而用来比较多个样本的结构。它是把饼图叠在一起,挖去中间的部分;图中每一个环都表示一个样本(城市),(城市)样本中的每一部分数据则用环中的一段表示。

此外,还有马赛克图(用于展示两个以上分类变量,满足条件才写)、脊柱图、扇形图等,此处不再一一详述。

二、 顺序数据描述

(1) 频数分布表——累计频数分布表

主要用于计数和汇总顺序变量的数据,通过它可以使(结合题)的频数、比例、累积频数、累积频率等一目了然,从而为进一步分析做准备。

(2) 累计频数分布图

主要是用于展示顺序变量的累积频数分布情况。它是将各类别按级别大小进行升序或降序排列在横坐标上,用纵坐标表示各类别的频率,然后用折线绘制出累积频率。

三、 数值型数据描述

(1) 频数分布表——分组表

主要是用于计数和汇总数值型分组数据。通过它可以使(结合题)分组后的频数、比例等一目了然,从而为进一步分析做准备。

用于展示数据分布特征的图形主要有以下几种:

(2) 直方图

它可以用来展示分组数据的分布特征。它用矩形的面积来表示频数分布,在矩形的高度表示每一组的频数或频率,宽度则表示各组的组距。

直方图与条形图的区别与联系:

区别: 条形图主要用来展示分类数据,其高度表示各类别频数的多少,其宽度是固定的;直方图则主要是用于展示数值型分组数据,是用面积表示频数分布,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度和宽度均有意义。且由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形图则是分开排列的。

联系: 二者都用来展示数据的分布情况;在平面直角坐标系中,二者的横轴都表示分组,纵轴都可表示频数或频率大小。

(3) 茎叶图

它不仅可以用来反映数据的分布特征,还可以保留原始数据的信息,更适用于观察少量数据的分布。它由“茎”和“叶”两部分构成。绘制时,首先将一个数值分成两部分,通常是以该数据的高位数值作为树茎,而叶上只保留该数值的最后一个数字。如数据125分成12|5。

(4) 箱线图

它不仅可以用来反映原始数据的分布特征,还可以进行多组数据分布特征的比较。绘制时,先找出数据的最大值、最小值、中位数和两个四分位数;然后连接两个四分位数画出箱子;再将最大值和最小值与箱子相连,中位数在箱子中间。箱线图还可用来寻找离群点,从而来处理数据的异常值。

此外,垂线图、误差图、小提琴图等,此处不再一一详述。

用于展示变量之间的关系的图形主要有以下几种:

(5) 线图

它可以用于展示时间序列数据,反映现象随时间变化的特征。绘制时,时间一般绘在横轴,观测值绘在纵轴。一般情况下,横轴应长于纵轴,纵轴数据下端应从“0”开始(若起始数据与“0”相差大,可采用折断符号),以便于比较。

用于展示变量之间的关系的图形主要有以下几种:

(1) 散点图(两个数值型变量)

它可以用来展示和两个数值型变量之间的关系。它用横轴代表变量,纵轴代表变量(可以互换),每对数据(如。。)在坐标系中用一个点表示,形成个散点。通过观察散点的趋势可以粗略判断变量与变量之间的相关性。

(2)气泡图(3个数值型变量)

它可以用来展示、和三个数值型变量之间的关系。绘制时,将变量放在横轴,将变量放在纵轴,而变量则用气泡的大小来表示。这样数据在图上就以气泡的形式呈现,方便分析。

(3)矩阵散点图(两个以上数值型变量)

它可以用来同时比较多个变量两两之间的关系。N个变量,可形成N*N个小矩阵,每个矩阵都对应两个变量之间的散点图,方便同时观察分析。

用于比较多个样本的相似性的图形主要有以下几种:

(1)雷达图(两个以上数值型变量)

它是从一点出发,用每一条射线代表一个变量,多个变量的数据的连成线就围成了一个区域,多个样本就能绘制多个区域 (如此题中有__个样本,故能绘制出__个区域),从而方便研究各样本间的相似程度。

(6) 轮廓图(两个以上数值型变量)

它是用横轴表示各样本(或变量),纵轴表示每个样本的多个变量(或样本)的取值,将不同样本同一个变量的取值用折线连接。如该题中,可用横轴表示变量,纵轴表示样本,则绘制出__条样本折线,从而便于分析各个样本之间的相似程度。

此外,还有星图、脸谱图等。

数据描述——统计量描述

一、 集中趋势度量

分类数据:众数

众数是一组数据中出现次数最多的变量值,常用于反映一组分类数据的集中趋势,且不受极端值影响。

顺序数据:中位数、四分位数

中位数是一组数据排序后处于中间位置的变量值。四分位数是一组数据排序后处于25%和75%位置上的值。它们常用于反映一组顺序数据的集中趋势,且不受极端值影响。

数值型数据:平均数

平均数是一组数据相加后除以数据的个数得到的结果,它的计算公式有多种,如简单平均数、加权平均数、几何平均数。主要是用于反映一组数值型数据的集中趋势,且易受极端值影响。

二、离散程度度量

分类数据:异众比率

异众比率是指非众数组的频数占总频数的比例,它主要用于衡量众数对一组数据的代表程度。其值越大,众数的代表性越差;值越小,众数代表性越好。

顺序数据:四分位差

四分位差是上四分位数与下四分位数之差。它反映了中间50%数据的离散程度,其数值越小说明数据越集中,数值越大说明数据越发散。

数值型数据:方差和标准差

方差是各变量值与其均值离差平方的平均数。方差的平方根成为标准差。它们是实际中应用最广的数值型数据离散程度测度值。其值越大,说明数据越分散。此外,还有极差、平均差等可以对离散程度进行测度。

此外, 还有极差,平均差等统计量有时也可以反映数值型数据的离散程度,不过极差描述的效果不太好,而平均差则不方便计算,故不常用。

(注:数值型数据的相对位置度量标准分数(sc) $ z_i = \frac{x_i-\overline{x}}{s}$,如z=-1.5,则表示该数值低于平均数的1.5倍标准差)

三、 分布形状度量:偏态系数、峰态系数

偏态系数是对数据分布对称性的测度,当分布对称时,其值为0;分布左偏时,其值为负;分布右偏时,其值为正。

峰态系数是对数据分布平峰或尖峰程度的测度,它是通过与标准正态分布的峰态系数进行比较来实现的,当分布为正态时,其值为0;分布为尖峰时,其值为正;分布为平峰时,其值为负。

四、 相对离散程度:离散(变异)系数

离散系数是一组数据的标准差与其相应的平均数之比,其计算公式为: $ v_s = \frac{s}{\overline{x}}$ ,它主要用来比较不同样本之间的离散程度。离散系数越大,说明数据的离散程度越大;离散系数越小,则说明数据的离散程度越小。

五、统计分组(高级变量——>低级变量)

根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。

统计分组的作用有:(1)发现社会经济现象的特点和规律;(2)将复杂的社会经济现象划分为性质不同的各种类型;(3)反映总体内部结构;(4)揭示现象之间的依存关系。

科学的统计分组应遵循两个原则(MECE原则):

(1) 必须符合“穷尽原则”,即总体中的每一个单位都有组可归。

(2) 必须遵守“互斥原则”,即总体中任一单位只能归属于一组,而不能同时可能归属于几个组。

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 归一
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信