数据驱动的前提,数据质量
“这个指标有问题?”,这个数据不是这样的“,”你的计算逻辑有问题吧“等等,这是是我们数据开发人员最怕听到的话,却在日常的工作中经常听到,有些开发商的 BUG 还可以避免,但是如果是源系统的问题,开发人员也是爱莫能助?你以为这样就可以把锅甩出去吗?
错了,源系统的问题,那是上游的问题,给数据服务方没有关系,数据服务方只看需要的数据,数据仓库能不能提供,能提供,就你好我好大家好,如果不能提供或者提供的不是他们想要的,那就是现在的开发这都是啥啊?这些都搞不定?这些数据我用 Excel 都可以搞?一系列话都在等着我们呢,这时候,数据质量就尤为关键。试想,如果业务提出一个场景,开发了半个月,之后看源系统基本及不维护了,数据杂乱无章,这个数据如何实现场景落地?
所以说,一直谈数据驱动,数据怎么来驱动是有多方面因素,但是有两个最重要的,数据得有并且能够拿到(采集),二是数据必须可用(质量、新鲜度),只有满足这些才可能实现数据驱动,如果数据采集、数据质量都不能保证的话,那做再多的工作也是多余的。类似于一个金字塔,底层肯定是数据,不过这个数据要加上定语,就是有效的数据,要保证数据从生产、采集、存储、加工、清洗、分析到数据服务全过程的数据质量,确保流程中每个节点的数据都是可信的,这样才有资格给业务谈数据驱动。
版权声明: 本文为 InfoQ 作者【奔向架构师】的原创文章。
原文链接:【http://xie.infoq.cn/article/52cbf67c0237bfaec950185b6】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论