关于搭建数据分析师能力模型的思考

自2019年从事数据分析工作以来,已快有5个年头,在这个节点上,有必要重新对职业进行一次深度的思考,来解决当下职业发展的瓶颈期、迷茫期。
基于以往对数据分析的学习和在工作中实践理解,让我发现数据分析不仅仅是工具、技能,它更是一种思维方式和解决问题的能力——一种将现实问题转换为数据问题的思维方式,用数据方法解决现实问题的能力。

我们姑且将这种“能力”定义为:在特定业务背景下,将业务问题转换为数据问题,并合理利用数据工具帮助解决业务问题的能力。

根据数据分析解决业务问题的一般思路,可以概况为5项能力,分别为:

  1. 业务理解能力
  2. 数据获取能力
  3. 数据处理能力
  4. 数据分析能力
  5. 数据表达能力

其中,每项能力又可以做如下拆解:

1、业务理解能力

1.1、背景梳理和问题归纳

解决问题的第一步是找到并理解问题,做到具体问题具体分析。因此,针对某特定的业务问题,我们需要先了解问题所处的业务背景,然后归纳总结出需要解决的关键问题。

在这里,我们采用“商业画布”中的方法论用来快速梳理业务背景,归纳业务核心问题。

商业画布由 9 个方格组成,每一个方格的含义分别为:

  • VP(Value Propositions)价值主张——提供的产品或服务
  • KS(Customer Segments)客户群体 ——产品或服务的目标用户
  • CH(Channels)渠道——渠道是指企业向客户提供产品或服务的途径和方式。渠道可以包括线上和线下的销售渠道、推广渠道、售后服务渠道等,以便满足客户需求和提高销售效率。
  • CR(Customer Relationships)客户关系——客户关系是指企业与客户之间建立的关系,以便提高客户忠诚度和满意度。客户关系可以包括个性化服务、快速响应、客户反馈等方式,以便企业能够更好地了解客户需求和反馈。
  • RS(Revenue Streams)收入来源——收入流是指企业从产品或服务销售中获得的收入来源。收入流可以基于产品或服务的不同属性、销售渠道、客户类型等多种因素进行分类,以便企业能够更好地了解市场需求和收益结构。
  • KR(Key Resources)核心资源——关键资源是指企业为提供产品或服务所必须拥有的资源和能力。关键资源可以包括物质资源、人力资源、技术资源等多种形式,以便企业能够更好地保持竞争优势和提高产品或服务的质量和效率。
  • KA(Key Activity)关键活动——关键活动是指企业必须执行的核心活动,以提供产品或服务并实现商业目标。关键业务活动可以包括生产、运营、销售、市场营销等多种活动,以便企业能够更好地实现商业战略和目标。
  • CS(Cost Structure)成本结构——成本结构是指企业为提供产品或服务所必须承担的成本和费用。成本结构可以包括直接成本、间接成本、固定成本、变动成本等多种类型,以便企业能够更好地了解成本结构和优化成本管理。
  • KP(Key Partnerships)重要合作——重要合作是指企业与其他组织或企业建立的合作关系,以实现共同的商业目标。重要合作伙伴关系可以包括供应商、合作伙伴、分销商等多种类型,以便企业能够更好地利用外部资源和优势,提高产品或服务的质量和效率。

Canvas 的使用者需要按照一定的顺序:首先要了解目标用户群(客户群体),再确定他们的需求(价值主张),想好如何接触到他们(渠道),如何维护好他们(客户关系),怎么盈利(收入流),凭借什么筹码实现盈利(核心资源),为了持续盈利必须要做的运营活动(关键活动),能向你伸出援手的人(合伙人),以及根据综合成本定价(成本结构)。

其中,寻找客户群体,提供价值服务,可以用以下方式进行匹配(原文:什么是商业画布?)

1.2、问题拆解

问题拆解采用的是“分而治之”的思想,将复杂的大问题,拆解成简单的小问题,然后再逐个击破。常用的方法是公式法和分类法,其中分类法需要遵循MECE法则,即分类需满足“相互独立,完全穷尽”

例如,问题是:”如何提高某化妆品的销售额?”

易知,销售额=销售量×单价,因此,想要提高销售额,则可从提高销售量或者提高单价入手。

若改化妆品是由多个销售渠道进行销售,则可以用分类法进行拆分:

通过拆解分析每个渠道的销售额状况,根据实际情况对每个渠道进行目标分配,从而提高总的销售额。

1.3、问题转换

问题转换采用的是“映射转换”的思想,想要用数据方法解决现实问题,最关键的一步就是将现实问题映射转换为数据问题。在这里,我们可以参考关系型数据库的基本原理面向对象编程的思维方式

关系型数据库的基本原理是基于关系模型来管理数据,它使用了数学中的关系集合理论来描述数据库中的表格和字段。

关系模型是一种思维方式,用于把实际世界中的实体(如人、事件、地点等)和关系(如联系、拥有等)表示成一种可供计算机处理的数据结构,从而将实际世界的实体和关系转换成数据库中的表格和字段。

因此,学习掌握构建E-R关系图是熟练进行“映射转换”必不可少的技能。

2、数据获取能力

2.1 内部数据获取

内部数据可以根据“商业画布”中各个环节产生的数据进行划分。其中,重点需要关注的是:用户数据和财务数据。其中,用户数据一般通过前端埋点获取,而财务数据通过传统的ERP系统或后端埋点的方式获取。

对于内部数据的获取,我们需要做到了解数据从无到有产生的中间过程,这有助于我们清楚的理解数据代表的业务含义和数据质量的好坏。通常,如果我们只需要进行销售数据分析、经营数据分析,那么熟练掌握SQL提取现有数据就够了,但是,当我们需要进行用户数据分析、产品数据分析时,则需要进一步了解数据埋点的原理和设计数据埋点方案,针对特定业务问题,分析师不仅需要知道通过什么样的数据去分析解决,还得清楚如何获取到这些数据,即用户在何时何地产生何种行为的数据(简称事件数据)。

数据埋点分为前端埋点和后端埋点。区分他们的简单方法就是:前端埋点是在客户端中记录埋点数据,后端埋点则是上报服务器记录埋点数据。

经验贴:只有在实际工作中做过埋点工作,才能对底层的数据口径理解透彻。比如,虽然DAU我们都知道是叫做日活跃用户数,但每个公司,甚至每个业务对它的实际定义都不一样。什么叫做“日”,一个用户23:59分进入APP,次日00:05分退出算哪天的DAU?什么叫做“活跃”,是用户看到了“开屏广告”就算活跃,还是用户看到“首页”算活跃,还是必须上报后端调起启动接口才算?只有你对一个指标、一个数据了解到这种程度,你才算真正理解了这个数据。因此,等下次你看到某一个数据时,请去真正的去关心和了解它的出生和过往经历吧,要知道他经历种种磨难能走到你面前也实属不易。

2.2 外部数据获取

外部数据通常通过调研和爬虫的方式进行获取。

常见的外部数据获取网站有:

常见的爬虫工具有:Python、八爪鱼等

3、数据处理能力

3.1 结构化数据处理

结构化数据可以简单理解为是关系型数据库管理的数据,按数据量级大小,可以选择合适工具进行数据处理:

  • Excel:单表≤10W行记录
  • Power BI:单表≤100W行记录
  • MySQL:单表≤1000W行记录
  • Python:单表≤1亿行记录
  • Hive:单表>1亿行记录

熟练使用以上各种工具进行常规的数据处理工作,是一名数据分析师的基础技能。

3.2 非结构化数据处理

非结构化数据是指如文本、图片、视频等等的数据,针对这块的数据处理需求,在业务分析师当中不太常见。

4、数据分析能力

4.1 描述统计分析

描述统计分析是指使用图表或者统计量描述数据的现状,因此它又可以分为:图表描述分析和统计量描述分析。

图表描述相对简单,它的特点是能快速直观的观察数据变化的趋势、对比数据的好坏。统计量描述分析则要求我们熟悉各种统计量对应的业务含义(复杂问题中,还需要我们新定义业务统计量指标,这对我们的数据转换能力要求更高),从而选取正确的统计量对业务现状进行描述分析。

详细的描述统计方法可参考我的另一篇文章:描述统计学

4.2 推断统计分析

推断统计分析主要是基于大数定律和中心极限定理,采用假设检验的思想,对抽取的样本数据进行推断分析。根据分析目的的不同,又可将其分为相关性分析和因果分析。

相关性分析是研究变量之间是否相关,而不考虑他们的因果。比如:“一到冬天,我就长膘。”只能说明季节和我的体重有相关关系,但不能说有因果关系。因为“长膘”的真正原因是冬天吃得多(摄入能量多),动的少(消耗能量少)。季节只是和“长膘”相关,但不是导致“长膘”的原因。在业务场景中,最为广泛的应用就是AB测试

因果分析则需要我们先确定好因变量,再选取适当的自变量,研究其对因变量的影响,从而推导出他们因果关系的数学公式。在业务场景中便是我们常见的归因和预测分析

详细的推断统计方法可参考我的另一篇文章:推断统计学

5、数据表达能力

5.1 图表语言表达

在实际业务中,图表按层级可分为:可视化对象(Visual)、报表(Report)、仪表板(Dashboard)。

其中,主要区分报表和仪表板。报表主要以描述数据为主,不以引导读者得到数据结论为目的;而仪表板则是采用数据可视化的方式向读者讲述“故事”,需要引导读者从数据中得出结论。

如下所示,仪表板在制作前的布局设计:

仪表板设计原则可遵循以下几点:

  1. 越简单越好。只保留与主题强相关的数据信息,拒绝使用各种花里胡哨的格式
  2. 使用布局和位置来吸引焦点。根据研究表明,读者的阅读位置的顺序优先级可以用下图来概况:
  3. 统一格式化数字。合理使用逗号分割数字、保留小数位数、添加数字单位,帮助读者快速阅读理解数据含义。
  4. 有效的使用标题和标签。始终在仪表板或报表上包含时间,如统计日期、更新日期等。为每个可视化对象使用描述性标题。理想的标签颜色有:软灰色、棕色、蓝色和绿色。

常用的可视化工具有:Excel、Power BI、Tableau、PPT等等,根据使用的业务场景,可合理选择工具进行可视化图表的制作。

5.2 文字语言表达

文字语言是数据分析师呈现分析结论、工作成功的重要手段,因此,在平时工作生活中,也需要提醒自己练习。关于这方面的训练方法,可以参考《金字塔原理》,里面详细阐述了使表达根据逻辑性的原理和训练方法,毕竟有一句话告诉我们:你表达没有逻辑,不是因为你不会说话,而是因为你不会思考。当你的思维有了逻辑,表达自然也就有了逻辑。

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 归一
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信