数据治理第一步,摆脱“手工作坊”

用户头像
KAMI
关注
发布于: 2020 年 08 月 15 日
数据治理第一步,摆脱“手工作坊”

截至2020年3月,我国网民规模为9.04亿,较去年年底新增网民7508万,其中手机网民规模达8.97亿。较2018年底增长7992万,我国网民使用手机上网的比例高达99.3%。



自从移动互联网发展和繁荣,我们进入了一个数据大爆发的时代,而其增长仍未见顶。



数据治理成了一个箭在弦上的工作,并且直接影响到将来能从数据挖掘多少价值。



很多团队雄心勃勃地开展了数据治理工作,制定了一系列数据规范和模型,开发了各种各样的平台去支撑治理工作。



然而,很多团队也发现,尽管当初设想得很好,但一通操作下来后,治理工作往往却没达到预期效果。



个中原因很多,然而最常见、最关键的是,他们治理工作并没有改变其数据生产的“手工作坊”模式

数据生产的“手工作坊”模式

 

一个产品,其生产流程靠生产者个人知识和经验推进和衔接,进度由生产者个体记录和把握,质量直接受生产者个体影响,无法保证稳定和可控,量产更是无从谈起。



这种生产方式,我们可以称之为 “手工作坊”。



我们用铁匠铺打个比方。你走进铁匠铺买菜刀,里面的师傅就拿出一块料,烧炉、拉风箱、敲打、淬火、打磨、打孔、装柄、开刃,走来走去在各个台面用各种工具捣鼓一番,把菜刀造出来,交到你手上。



生产菜刀的方法和过程,下一步做什么,用什么工具,由打铁师傅凭自己知识经验衔接。



打铁师傅这次用心给你了打一把好菜刀,但他不能保证他以后打的菜刀都好使。也许哪一天他喝多了,就给你打了一把连黄瓜都切不动的菜刀。



在铁匠铺,打一把菜刀还能应付,你要是想打1000把规格和质量都一致的菜刀,几乎办不到。找1000 个师傅一起打也无尽于是,每个师傅打的菜刀必定是规格和质量必定是参差不齐。



尽管铁匠铺是在生产菜刀,但是和现代工厂生产菜刀,是两码事。



现在绝大部分的数据研发和生产过程,给人先进、高端、科技感满满的感觉,似乎和铁匠铺之流不搭边,但本质上都同样是手工作坊

你接到个数据需求,评估下该走哪些计算框架,针对框架写业务逻辑代码和 SQL,把计算流程串起来,然后把原始数据捞出来跑作业,跑出结果了用个数据同步工具同步到目标表。如果是每天都需要计算的就给它弄个定时调度,如果是个重要作业就写个监控任务监控下作业和数据。



跟打铁师傅一样,在各种工具和平台切来切去捣鼓一番,把数据给捣鼓出来。



通过手工作坊生产的数据产品,其流程、质量、量产,自然便有“手工作坊”产品的一贯问题。可以说,数据质量的要解决的数据歧义、数据质量等大多数数据问题,本质上都是由手工作坊这种生产方式带来的。

没有“手工作坊”,对数据治理很重要

 

然而,很多数据团队在实施数据治理时,并没抓住“手工作坊”这一问题根源,把数据治理弄成规范和工具的无效堆叠,治理效果自然不合预期,甚至失败。



规范建模可以说是数据治理的第一等要事。在实施数据治理时,数据团队第一件要做的事便是根据业务现状制定各种数据规范和模型。



然而,有一个普遍适用各类生产活动的真理,就是:无论规范和标准多合理和完美,如果它无法直接作用和影响到产品的生产过程,那就是废纸一张



成功的数据治理案例,必然会令数据规范和标准直接成为数据生产的一个环节。



例如阿里巴巴的 Dataphin,其中核心理念就是“设计定义计算”,由规范建模直接生成数据。



在“手工作坊”生产方式中,数据规范最终只能靠人把握和执行。行政命令管用一时,但人的惰性、路径依赖、业务压力和KPI导向,最终会占上风,规范和标准也随之消亡



很多数据团队会把平台开发作为数据治理切入点。毕竟,很多数据问题的直观原因是开发者线下操作不当、缺少规范、难以跟踪。



然而,如果没有认识到“手工作坊”是根源这一问题,平台往往就沦为工具的堆叠,只是简单地线上操作搬到线上



工具实现得再自动化、智能化,但如果仍需要人去把握和衔接,那生产过程仍然是手工作坊。



用白屏化的调度器替换 crontab、用自动化的同步作业替代 sqoob,和铁匠铺里用电炉替代风箱、电钻替代手钻一回事,看上去是先进了,但铁匠铺还是铁匠铺,手工作坊还是手工作坊。



摆脱“手工作坊”的数据生产模式,是数据治理成功的必要条件。层面和切手点很多,但关键都是要把生产过程从由个体把握和主导,转变为由平台把握和主导,这样数据规范和标准才能穿插到生产过程,工具和功能不再是孤立的存在,而是由点成面形成完整生产过程。



发布于: 2020 年 08 月 15 日 阅读数: 80
用户头像

KAMI

关注

这个世界复杂又有趣,和你分享我热爱的一切 2020.05.03 加入

数据挖掘研究员,专注分享数据领域的技术和业务,以及逻辑、思维和方法论 | 网易游戏内推长期有效,欢迎私戳 (微信 KAMI-Wei)

评论 (1 条评论)

发布
用户头像
制度、规范、工具做得再完美,如果不能作用于数据生产过程,那还是一个数据的“手工作坊”。我们就面临这样的问题,制度和开发规范做了不少,但是并没有直接在项目中发挥大作用。
2020 年 10 月 06 日 14:32
回复
没有更多了
数据治理第一步,摆脱“手工作坊”