描述统计分析(R语言实现)

统计学是一门专门研究如何收集、处理、分析、解释数据并从数据中得出结论的科学。

一般而言,我们通常将对数据的分析分为两大部分:描述统计分析和推断统计分析。

描述统计分析 ,可以帮助我们快速了解随机事件的现状,它的基本原理就是信息的凝练和浓缩。用简单的统计量和图表去概况我们所关注的某部分信息,而忽略其他嘈杂信息,整个过程其实就是一个信息筛选和浓缩的过程。

举个简单的例子:婚介所给你推荐了10个女士的个人信息,包括:身高、体重、年龄、学历……,但是,你最关注的只是学历,因此,在众多的信息里,只有学历这个信息对你而言是有用的,你只需要把10个人的学历信息筛选出来进行比较即可,而不需要关注过多的其他信息,造成时间的浪费。这就是一个简单的信息筛选过程。

再举个例子:如果你想了解你目前的薪资处于当前城市的什么水平,最“严谨”的办法当然是,把这个城市的所有人的薪资都统计出来,然后排个序,看自己的薪资再所有人当中能排到哪个位置。但是,显然这是不可取的。因此,我们就需要进行如下工作:

  1. **信息筛选(随机抽样): **抽取部分与城市薪资分布整体结构近似的人群进行调查。
  2. **信息浓缩(概括性度量): **计算样本的中位数,通过观察你距离样本中位数的位置,大致能推断你在这个城市的薪资水平。

从这个过程我们可以看出,通过信息的筛选和浓缩,我们从需要了解一个城市所有人的薪资大小简化到了只需要了解一个统计量(中位数)的大小。

但是,肯定会有人有疑问:虽说简单了,但是也损失了很多信息,而且极可能把我们关注的信息也损失了,我们也不知道结果准不准确?有多准确?对于这个问题,如果来判断准不准确?误差是多少?能否按照规律进行预测?…….这些就是我们推断统计部分需要来回答的问题了。

我们需要清楚的是,描述统计的作用就是通过信息筛选和信息浓缩快速了解现状。就好比两军开战,要先知己知彼,洞察敌情,至于什么时候开战?如果判断开战的时机?这个就是我们统计推断要解决的事情。

数据信息的分类

现实世界的数据信息以各种形态存在,为了更好的对他们进行搜集和分析,我们把具有相同性质的数据信息进行如下分类。

非结构化数据处理相对复杂,有专门的学科进行研究。在这里,我们主要来分析结构化数据。

分类数据的描述性分析

分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。

图表描述分析

对分类变量的图表描述分析,主要分为对比分析和占比分析。

对比分析:条形图

通常,我们使用条形图来对比不同类别的频数大小,快速直观的了解各类别的”好坏“情况。

占比分析:帕累托图和扇形图

对于分类变量,我们除了想了解数据整体的情况,还需要了解各部分在整体中的占比(即影响权重),常用的占比分析方法就是帕累托分析。

帕累托法则,又称为二八原则,即20%的人贡献了80%的价值。它常用来对用户进行分类,寻找出核心价值用户。

扇形图能更加直观的看出各类别占比的大小顺序,方便类别直接进行比较。(个人不推荐使用饼图)

统计量描述分析

描述水平的统计量:众数

咱们公司的明星产品是什么?哪个小区的人口最多?为了回答类似这样的问题,我们可以使用众数 $M_0$ 来进行衡量。众数是频数最高的那个类别值,通过它我们可以了解哪个类别出现的概率会更高,即哪款产品可能更受用户喜爱。

描述差异的统计量:异众比率

描述数据的统计量通常都是成对出现的,在上面,我们通过众数了解到了销量最好的明星产品,但是,这个明星产品是否可以作为”代表“,来代表所有产品的销售情况呢?是不是通过它的销售好坏,就可以直接衡量所有产品整体的销售好坏呢?

我们需要一个评判标准,那就是异众比率。异众比率是指除了众数以外其他类别的总频数占总样本量的比例,即除了明星产品,其他产品的销量占总销量的比例。

如果异众比率小,则说明销量主要集中在明星产品,众数的代表性好,反之,则代表性差,不能用众数去代表整体的情况。

注:根据二八法则,通常认为异众比率在0.2以下,众数的代表性就很好。

顺序数据的描述性分析

图表描述分析

(1) 频数分布表——累计频数分布表

主要用于计数和汇总顺序变量的数据,通过它可以使频数、比例、累积频数、累积频率等一目了然,从而为进一步分析做准备。

(2) 累计频数分布图

主要是用于展示顺序变量的累积频数分布情况。它是将各类别按级别大小进行升序或降序排列在横坐标上,用纵坐标表示各类别的频率,然后用折线绘制出累积频率。

统计量描述分析

描述水平的统计量:中位数、四分位数

中位数是一组数据排序后处于中间位置的变量值。四分位数是一组数据排序后处于25%和75%位置上的值。它们常用于反映一组顺序数据的集中趋势,且不受极端值影响。

描述差异的统计量:四分位差

四分位差是上四分位数与下四分位数之差。它反映了中间50%数据的离散程度,其数值越小说明数据越集中,数值越大说明数据越发散。

数值型数据的描述性分析

图表描述分析

用于展示数据分布特征的图形主要有以下几种:

(1) 直方图

主要用于观察分组数据的分布特征,通常可以结合核密度线进行观察,可用于进行正态性检验。

直方图与条形图的区别与联系:

区别:条形图主要用来展示分类数据,其高度表示各类别频数的多少,其宽度是固定的;直方图则主要是用于展示数值型分组数据,是用面积表示频数分布,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度和宽度均有意义。且由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形图则是分开排列的。

联系:二者都用来展示数据的分布情况;在平面直角坐标系中,二者的横轴都表示分组,纵轴都可表示频数或频率大小。

(2) 茎叶图

它不仅可以用来反映数据的分布特征,还可以保留原始数据的信息,更适用于观察少量数据的分布。它由“茎”和“叶”两部分构成。绘制时,首先将一个数值分成两部分,通常是以该数据的高位数值作为树茎,而叶上只保留该数值的最后一个数字。

(3) 箱线图

它不仅可以用来反映原始数据的分布特征,还可以进行多组数据分布特征的比较。箱形图是由5个统计量组合而成的图形,它们分别是:“最大值”、“最小值”、中位数、上四分位数和下四分位数。

“最大值和最小值”:在箱形图中的最大值其实是指去除异常值后的最大值和最小值,然后将它们作为整体图形的上下两条边界线。

判断异常值的异常值截断点计算方式如下:

上异常值截断点 = 上四分位数 + 1.5*IQR(IQR即四分位差)

下异常值截断点 = 下四分位数 - 1.5*IQR(IQR即四分位差)

中位数:代表数据集中趋势位置的数,它表示这组数据大部分是集中在哪个数的附近,在这组数据中即表示了大多数的学生成绩是在75.5分左右。

四分位差(IQR):IQR = Q3(上四分位数)-Q1(下四分位数)。

四分位差表示了一组数据中间50%的数据的离散程度,通过它我们可以来衡量中位数的代表性。如果IQR较大,则说明中间50%的数据相对分散,中位数的代表性则不好;如果IQR较小,则说明中间50%的数据相对集中,中位数的代表性则较好。

此外,我们还可以通过图形的整体长度,即极差来观察数据的整体分散程度。

用于展示变量之间的关系的图形主要有以下几种:

(4) 散点图(两个数值型变量)

它可以用来展示两个数值型变量之间的关系,一个变量在横轴,一个变量在纵轴,通过观察散点的趋势判断两变量的相关性。

(5)气泡图(三个数值型变量)

它可以用来展示三个数值型变量之间的关系。第一个变量用横轴表示,第二个变量用纵轴表示,第三个变量用气泡的大小表示。

用于比较多个样本的相似性的图形主要有以下几种:

(6)雷达图(两个以上数值型变量)

它是从一点出发,用每一条射线代表一个变量,多个变量的数据的连成线就围成了一个区域,多个样本就能绘制多个区域 ,从而方便研究各样本间的相似程度。

(7)轮廓图(两个以上数值型变量)

它是用横轴表示各样本,纵轴表示每个样本的多个变量的取值,将不同样本同一个变量的取值用折线连接,从而便于分析各个样本之间的相似程度。

统计量描述分析

描述水平的统计量:平均数

平均数的计算公式有多种,如简单平均数、加权平均数、几何平均数。主要是用于反映一组数值型数据的集中趋势,且易受极端值影响。

描述差异的统计量:方差和标准差

方差是各变量值与其均值离差平方的平均数。方差的平方根成为标准差。它们是实际中应用最广的数值型数据离散程度测度值。其值越大,说明数据越分散。此外,还有极差、平均差等可以对离散程度进行测度。

此外,还有极差,平均差等统计量有时也可以反映数值型数据的离散程度,不过极差易受极端值影响,而平均差的数学性质较差,故不常用。

(注:数值型数据的相对位置度量标准分数(sc)$ z_i = \frac{x_i-\overline{x}}{s}$,如z=-1.5,则表示该数值低于平均数的1.5倍标准差)

分布形状度量:偏态系数、峰态系数

偏态系数是对数据分布对称性的测度,当分布对称时,其值为0;分布左偏时,其值为负;分布右偏时,其值为正。

峰态系数是对数据分布平峰或尖峰程度的测度,它是通过与标准正态分布的峰态系数进行比较来实现的,当分布为正态时,其值为0;分布为尖峰时,其值为正;分布为平峰时,其值为负。

相对离散程度:离散(变异)系数

离散系数是一组数据的标准差与其相应的平均数之比,它主要用来比较不同样本之间的离散程度。离散系数越大,说明数据的离散程度越大;离散系数越小,则说明数据的离散程度越小。

总结

  1. 描述性分析主要是用图表和统计量来观察随机现象的特征规律;
  2. 图表简单、直观,可以帮助我们快速发现规律、监控异常;
  3. 统计量则浓缩了与目标最相关的信息,可以通过样本统计量来预估总体特征,除了上面常见的统计量之外,我们在实际工作中,一般是提取随机现象的特征统计量,如常见的业务指标,来描述实际业务当中随机变化的现象的规律和特征。
  4. 总而言之,统计描述分析就是对总体信息进行抽取、筛选、浓缩、描述的过程。
打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 归一
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信