选取数据的原则
在明确了数据的类型和获取途径,以及获取内外部数据之后,就需要判断这些数据是否可用,能不能支撑和分析出我们需要的结论。
1、要有数据可选
选用数据,特别是想选用好的数据,首先必须要有数据。
从一个产品的诞生开始,或者是为了一个分析结论,有没有想好需要什么样的数据?
每个需求,有没有包含“我要这部分功能的数据”这部分?
“数到用时方恨少”,不要在需要用的时候,才想起来“这些数据怎么都没有?”
相信很多人都有这样的体会,就是在想做数据分析时,发现很多数据都没有。比如要追溯 5 个月以前的数据,但发现只保留了最近两个月的数据。因此,产品经理或运营经理就需要在产品诞生的时候,想清楚需要什么数据满足后面的分析需求,让开发人员预先做埋点把这些数据记录下来,方便后期数据分析使用。所以,在提一个产品需求时,需要先看看有没有包含关于数据方面的需求,及时地更新自己的数据需求说明书,不要再出现“数到用时方恨少”。
2、要有用的数据
在有数据可选之后,需要仔细分析:哪些数据是需要的。有用的数据应该和产品的运营目标相匹配,能支撑我们的目标主题分析。
它能告诉你:在多大程度上实现了运营目标。
或者能帮你发现运营中的问题,减少在实现运营目标过程中的障碍。
或者能让你发现一些新的机会和优化点,更好地达到或超越运营目标。
3、不要没用的数据
在有可选数据之后,是不是提取越多的数据出来分析越好呢?并不是的,数据并不是多多益善的。
回想一下,在平时进行数据分析时,是不是有很多数据是你提出需要的,但最后却没有发挥作用?答案应该是有很多。
过多的数据会让你的分析工作变得繁杂,特别是在提取数据和处理数据时,有些数据用之无味、弃之可惜。
过多的数据会让你的分析报告密密麻麻,重点不清晰。汇报对象看后抓不住重点,如果汇报对象是直属领导,他们看到这样的报告会很生气。
过多的数据会增加开发人员或统计人员的工作量和机器成本,而这些都是无用的。这也会导致合作的同事很生气,是不是得不偿失呢?
所以,产品经理或运营经理,以及任何其他的工作人员,要尊重和你合作的人员的劳动成果,不要提出一堆没想清楚的需求让别人做,最终还是用不上的数据,白白浪费了各方资源。
4、要可靠的数据
可靠的数据意味着数据是你真正想要的、可信赖的数据。可靠的数据是在有用数据范围内的精准圈定。可靠的数据是怎样的?
是你真正想要的数据。
是始终准确的数据。
是能稳定获得的数据。
真正想要的数据意思是输出的数据口径跟想要的数据口径是完全一致的。这就涉及与数据提取人员的沟通情况,要说清楚到底需要什么口径的数据,或者在自助提取数据时,能精准地根据自己想要的维度提取出来。
始终准确的数据就是提取或输出的数据有时是对的,有时是错的,需要进行各种修正才能准确。稳定获得的数据就是输出的数据很不稳定,有时候有,有时候没有,而数据分析需要稳定的数据。
所以,不管是技术人员、产品经理还是运营经理,都需要尽自己的责任去保证数据的可靠、准确和稳定获得。
5、不要不可靠的数据
使用不可靠的数据,有时候不如没有数据。不可靠数据跟可靠数据是相对的。不可靠数据有以下几个典型特征。
不是真正想要的数据(口径不一致)。
数据有时准确,有时不准确(跑数据时老出错)。
数据经常不能按时输出(输出数据的人力或物力成本太高)。
在提数据需求和获取数据时,有些数据口径在表述或说法上比较复杂,在给需求执行方描述需求的时候,可能大家的理解不同,那么输出的数据就可能有偏差,不一定是自己想要的数据。如果是自助提取的数据表,也需要先了解原始数据表的字段定义,避免理解有歧义。因此,数据口径的沟通是非常重要的。
数据有时准确,有时不准确。比如跑某一个功能的使用用户数,一般是 50 万次或 60 万次,如果突然输出一个 5000 万次或 800 万次,那么这样的数据就是错误的。
数据经常不能按时输出。举个例子,比如要从某合作方处获得一些数据,有时可能他们只能提供某一个或个别片区的数据,而这些数据都是临时性的,没有持续可分析的价值,不能稳定获得。
版权声明: 本文为 InfoQ 作者【穿过生命散发芬芳】的原创文章。
原文链接:【http://xie.infoq.cn/article/aeec86db131822e5b6e22d278】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论