写点什么

数据分析流程浅析

作者:圣迪
  • 2021 年 12 月 16 日
  • 本文字数:1270 字

    阅读完需:约 4 分钟

又不知道写什么,便稍微介绍一下一般我们常用的数据分析的流程。本篇主要以 90 年代的 CRISP-DM 为例进行说明。

读完本篇,您应该能对数据分析的一般流程有一个大概的了解。


CRISP-DM

CRISP-DM 全称 Cross-Industry Standard Process for Data Mining,翻译过来就是跨行业数据挖掘标准流程

首先我们先来思考,如果是我们对于一个现象,我们会怎样去解释和处理这个问题?对于人类来说,我们会先思考这个现象为何会发生?发生的原理,以及我如何控制(阻止)它的发生?以上的思路,我们抽象来讲,可以定义为:把一个问题定义清楚;想清楚/分析明白产生这个问题的原因;以及最终解决问题的思路。这个思路,看起来放之四海而皆准:定义问题分析问题解决问题

事实上, CRISP-DM 也是这样一个思路:

Step1 业务理解

第一步便是先定义问题 ,理解业务的思路,确定好我们的目标以及明确分析的需求是第一步。麦肯锡有一个职场心法:能够精准定义问题,问题就解决了一半。其实就是这个道理,需要想清楚问题到底是什么。

Step2 数据理解

这一步,主要是将业务过程中产生的原始数据进行收集、描述和探索。这一步的关键点在于结合业务能够将数据背后代表的含义进行理解。事实上,数据本身并没有任何意义,只有和业务/场景相结合,才能创造出它的价值。

Step3 数据准备

第三步,一般是对数据进行加工的一个过程。选择哪些数据、构造怎样的数据、整合哪些数据或者最终格式化哪些数据是这一步的核心。

数据为何需要加工?直接用不行么?有这样一个比喻我非常的赞同:数据就像在地底里的原油。原油从地里开采出来后,并没有任何的用途,只有经过炼油厂的加工提炼,才能成为我们今天的驱动飞机汽车的石油。因此提炼的过程非常重要,因为其是一个去除杂质,分门别类的过程。不过的质量石油,会分别进到不同的用途,数据亦然。

Step4 建立模型

第四步,选择一种建模技术,将参数进行优化,生成测试计划和构建最终的模型。这里,主要是将数据按照最终的目的进行模型话。这里,我们基本采用的都是统计学上的算法,如 KNN 聚类、FP-growth 关联分析等。这一趴,按照我们的分析目的会去建立不同类型的模型,如分类与回归聚类分析关联分析时许模型结构优化 等。比如判断是否是垃圾邮件,我们可能就可以采用聚类分析 算法来做。这一篇要展开讲可以讲一本书了, 这里就不再赘述。

Step5 模型评估

模型做好后, 总得知道这个模型好还是不好?是否能够符合当前的场景?因此在这一步,对模型进行较为全面的评价,重审对应的过程,就闲得比较重要了。

Step6 部署

最后,完成模型评估后,该模型便能正常进行使用了。一般而言便会部署到生产环境,由对应的应用系统进行调用产生数据对应的应用价值。


CRISP-DM 事实上已经成为了行业的分析的标准,虽然其从本质上而言并没有发明创造新的轮子, 但其将我们的数据分析进行了标准化。而标准化后的 SOP 非常简单易懂,因此还具备不错的传播性,也难怪大家都还比较推崇。

当然,我们也还有一些其他的分析的流程,当然并不只此一家。以后有机会继续聊。

于辛丑年冬月十三

发布于: 刚刚阅读数: 2
用户头像

圣迪

关注

还未添加个人签名 2019.04.09 加入

还未添加个人简介

评论

发布
暂无评论
数据分析流程浅析