【拆解篇】CTO 眼里的数据治理,其实就这三点!
引言:你是不是一提到数据治理就头大?一聊到数据治理满脑都是问题又无从下手?是不是觉的数据治理就是“背锅”的活?… 这篇文章帮你深入解构数据治理,从行研咨询、商业化产品、互联网大厂等不同视角帮你全面梳理数据治理,最后通过“人-事-组”的思维模型,帮你从千头万绪的数据治理中快速抓住重点。
墒增,算是自然界最流行的规律了。
一段时间没有收拾的屋子,各种小物件或者用品,逐渐开始变得无序,摆烂在屋子的每一个角落。
随年龄增长细胞代谢水平下降,生物体内分子和组织结构逐渐趋向于衰败。
数据,似乎也没能逃脱得了自然法则的支配。
工作场景中,特别是在数据中心,你可能会经常碰见这种场景。
大老远都能听见,分析师或业务运营非常热烈得,跟数据开发或者数据产品经理讨论,某某数貌似不对诶,但最后发现可能是对指标含义理解有偏差。
某某数据开发早上来公司,就开始吐槽,MD,昨晚某某任务失败,被催了好多次,下了班还不能消停。
某一天,分析师组长跟数据开发组长交流、最近这业务扩张刹不住车了,分析的时候总会遇到有些分析维度缺失,导致分析遇到一些小卡点。数据开发组长接着话茬说:就是呀,为了赶业务需求时间,任务在疯狂的增加,机器资源各种紧张。
…
听到以上这些吐槽,可能大部分人都能想到一个词:数据治理。但同时下一秒,就会稍稍皱起眉头,因为数据治理并不是一件小事。
这里我们借用下大数据思维:搜索引擎的关联能力,了解下数据治理包含哪些内容。
任何一个角度点下去,都能展开一大片内容。
数据治理可以很小,小到一个数据计算错误。数据治理可以很大,大到负责数据治理这件事的第一责任人,往往是公司里的一号位:CTO 或者 CIO。那为什么数据治理包含这么多内容呢?
数据治理经验分析:包罗万象
人群诉求各异
老板关注的是数据要更多更快得创造价值,同时减少成本消耗。监管层关注的是数据隐私要保护、数据管理要安全。业务人员追求数据又快又准,最好上午发需求,下午看到数,晚上就有方案。技术人员关注的是数据的生产链路,数据服务运行的是否稳定。哪一方的诉求都很重要,哪一方的诉求都怠慢不得。
数据链路长
就像制造业工作流水线一样,数据的制造也依赖于一条完整的链路:数据采集→数据加工(ETL)→ 数仓构建→数据应用。理论上任何一个环节出现问题,都能导致数据异常,比如客户端(Android/IOS)工程师埋点时漏埋、误埋、错埋等,比如数据采集管道链路网络异常导致数据丢失,比如上游数据生产任务中断…最终看到的数据就会总感觉哪里不对,排查起来也是相当耗时,比如有时候发现是业务端没有做控件校验,导致了大量无效数据,这时候的沟通就涉及到跨部门,响应的时效往往也会拉得很长。
认知不一致
不同的人对问题认知深度不同、拆解方式不同、治理策略也不同,从结果来看就会存在很大治理差异。特别是有时候专注在问题的表面,只看某单一衡量指标是否有所改善,实际上是“头痛医头、脚痛医脚”,问题并没有得到解决。比如“为什么某张主题表一直在变动”,可能主题关联业务较多,也可能是主题模型本身就建设不足导致。
非点即面
组织方面:很多时候,业务提出问题涉及到哪张表,相应的数据开发负责问题的排查和处理。但很多问题并非这个层面就可以解决的,比如某个问题涉及到数仓的不同主题、不同分层,需要整体思考治理的标准、方法、结果评价的时候。简单的问题解决方式,已不再适应更有深度的问题处理,需要有匹配的组织去 Lead 这件事、去组织实施。组织的另一层含义是,要给具体的人匹配相应的权利责,这是驱动数据治理、问题解决的关键。
规范方面:对治理方法、动作、流程等,如果都依赖于治理人的经验和判断,那么在人员流动的环境下,换一个人治理方案就可能完全不一样了,保治理的效果根本无从保障。
系统/工具方面:也许你可能在数据团队的文档中心,看到过很多数仓的规范,某些问题的对应解决方案总结。另一些时候,你可能就不知道一些方案的存在。或者你找到了有相关性的文档,理解上要花点功夫,就像你接收别人代码的时候,可能并不能完全理解准确。进一步的讲,即使花了很大功夫理解了之后,治理过程也可能存在执行错误,也就是过程的无法确保不走样,这就让数据治理的执行成本提得很高。大型公司还好,一般会配置一些平台工具团队,但更多的中小公司,只能是规范+每次例会宣导,效果可想而知。
以上内容,是作者基于以往数据治理工作经验中的一些认知和理解。
对于地球来说,你站在游轮上看、站在珠穆朗玛峰顶看,站在空间站看,是完全不一样的。既然数据治理包含的内容如此之大,我们不妨把视野拉的大一些。作者梳理了以下一些角度:咨询机构、商业化产品、互联网大厂、行业标准等。
高维透视数据治理:一览无余
行业咨询视角
咨询公司往往会站在企业数字化的高度,看待企业数据场景中的治理痛点,并给出综合性的解决思路或方案。
可以看到,咨询行业人士梳理出来的治理难点,主要专注在两个方面:
质量范畴问题:
多元异构,数据来源众多、数据结构各异。来源广就要兼容的数据库渠道多,结构不一样,就要定制更多的数据处理引擎。同时数据体量比较大也对存储和计算提出了更高的要求。
管理范畴问题:
缺乏统一的管理就会导致两个明显的极端,一方面一些数据的计算作业、数据存储存在冗余,一方面另一些需求由于资源紧张,导致响应等待或者处理延时。特别是数据管理可能存在边界重合、责任不清等问题,就会导致一段时间一些问题的搁置。也许你会说被搁置问题说明问题处理优先级不高,那么如果当很多下游有任务引用问题表的时候,小问题可能就会被放大。
也许更重要是数据口径的管理,不一致的口径定义,会带来沟通成本的增加、数据生产的错误、甚至是误导数据分析场景下的问题归因。
商业产品视角
截止目前,数据治理已经发展多年,我们可以通过商业化的数据治理产品,以及他们是怎么评估数据治理成熟度,来反推他们在解决数据治理问题时专注得是哪些方面。
可以看到这家厂商,从系统角度将数据治理拆解为 9 个产品。9 个产品主要解决了 3 个方面的问题。
关于生产链路的:包含了数据集成、数据交换、数据模型管理、数据资产管理。4 个模块刚好对应从数据源选择、数据管道建设、数据加工处理、数据价值转换,实现从数据资源到数据资产的“冶炼“全过程。
关于数据管理的:包含了数据安全、数据生命周期。安全方面解决数据受限访问、隐私加密存储、合规等问题。生命周期视角下可以给数据定义热度、重要度等维度,关注的是数据如何被合理的管理问题,包括数据如何下线、销毁等,对数据进行全生命周期的完整跟进。
关于数据质量的:包含了元数据管理、数据标准管理、数据质量管理。这刚好对应了数据质量的三个核心:元数据、标准、稽核。即通过元数据知道有什么样(What)的数据;通过标准指导数据应该遵循什么样(How)的规范;稽核元数据和标准构建数据稽核作业,完成对数据质量的自动化检验。
以下是另一家数据治理方案。
这张图我们专注在最左侧的部分,我们来分析下期成熟度评估模型都参考了哪些维度?这些维度分别是解决哪一类问题?这里作者梳理出了 4 个部分。
架构体系:价值创造、组织、策略、数据架构。
安全:数据风险管理、安全/隐私/合规、审计与报表。
质量:数据质量、数据标准、元数据。
管理:数据生命周期管理、数据管控、数据分类分级。
把这些内容整合起来,大致的意思就是:一切从价值核心出发,依托组织和策略的搭建,通过一套数据架构,实现和落地数据的安全、质量、管理问题。此外这张图也给出了一条实现数据治理的项目流程机制。具体读者可以参考。
行业标准视角
数据治理的不断发展,逐渐形成了自己的行业标准,这里通过行业标准,看下数据治理具体关注哪些方面?又是如何给到解决方案?
DAMA(Data Management Association) 发布 DMBOK (Data Management Body of Knowledge) 框架核心内容:
数据治理、数据架构、建模设计、数据存储、数据安全、集成、主数据、数据质量、数据生命周期、元数据。
DCMM(Data Capability Maturity Model)核心内容:
战略:数据资产识别、数据价值评估、战略规划能力。
治理:数据标准化、数据质量管理、组织与制度建设。
应用:数据服务能力、数据分析能力、数据驱动创新能力。
技术:数据存储与计算技术、数据中台、数据共享技术。
安全:数据权限管理、数据隐私保护、数据灾备和容灾能力。
通过两套标准,可以观察到两套标准关注的内容是有差异的。DAMA 是国际标准,更侧重数据治理关注内容的全面性。DCMM 是一个国内标准,其更侧重于数据治理在企业中的落地。如果整体上去看两个行业标准的话,可以归结为两个大的方面:组织和实施。组织方面重制度、方法、规划、数据架构;实施方面重点解决的是元数据、标准、质量、安全、价值。
大厂实践视角
这里以某互联网大厂近 10 年的数据治理方面沉淀的框架为例。
整个框架蛮清晰的,围绕“降本增效、质量安全”的愿景,妥妥的老板视角。为了实现这个目标,又拆解了 5 个维度:管理、能力、标准、执行、评价。
管理层:通过组织的建设,明确数据治理成员的责权利,并细化到制度和流程层面来保障数据治理的过程。
标准层:标准层放在最底部,可以看到框架设计者对数据治理本质理解的到位。这个标准不仅仅是对内统一规范,站在平台的角度,它更是企业构建业务生态、开放平台的基石。
执行层:可以看到框架设计者清晰的项目思维,围绕目标、界定范围、全过程执行。框架设计者将高层的愿景拆解为更为落地的 5 个方面:成本、质量、安全、效率、易用。前面四个很好理解,设计者把易用性单独提出来放在这个高度,这是一种服务思维,数据中心的用户是分析师、业务运营人员、是市场人员、是老板,这是对提供的数据服务提出了更好的要求。这点倒也好理解,职场环境下,把这几位角儿服务好,所谓的“价值”不就有了嘛,口碑也是一种价值。
评价层:这是一个相当重要的一层,一般公司看待数据治理更多是站在解决问题的角度,从价值角度出发更有利于数据治理的展开。之所以工作环境中,一些公司数据治理很难落地、或者说部分落地,很大程度上源于评价体系的缺失。比如常见的数据不准问题,表面上看数据对不上,但排查起来可能是生产环节的问题,可能是客户端埋点的问题,也可能是服务器后端 Bug。找到问题并解决掉问题可能要花掉很长时间,如何正确的评价这些努力就决定了数据治理的深度和程度。这一层又进一步的拆解为目标度量、过程监控、结果评估。从一开始就看中数据质量的价值感,这也让治理者更有参与感,让治理实践容易落地。
能力层:基于标准之上的能力构建,让企业对数据更有掌控感,特别是围绕管理、技术、业务去搭建元数据管理,让数据看得明白、看得懂,通过数据血缘能够加速问题的定位,通过管理元数据,让每一份数据都有明确的维护者。同时通过系统化的工具构建,让数据治理的过程更加标准化,极大减少了人员的不同带来治理效果的差异。
官方指导视角
相比制造、工程、投资等行业,银行和电信行业的数据治理起步相对较早,沉淀的经验也更丰富和可参考。这里以银保监会印发的《行业金融机构数据治理指引》为例,看看官方是怎么看待数据治理这件事。作者梳理出了一下 4 个部分:
数据治理架构:银行业金融机构应当搭建,架构健全的组织、边界清晰职责定义。建立数据治理体系,保障治理所需资源配置、制定和实施问责和激励机制。特别明确了一点,高级管理者对数据治理承担最终责任。这个跟作者实际工作经验以来的认知保持一致,数据治理事件重要、涉及面广的事情,由一名 VP 级别的人负责是非常合理的。
数据管理:包括但不限于组织管理、部门职责、协调机制、安全管控、系统保障、监督检查和数据质量控制等方面。具体内容包含了数据治理架构、数据管理、数据安全、数据质量、数据价值。此外强调了数据管理方面需要对内部员工组织定期的培训等。
数据质量控制:保障数据真实、准确、连续、完整、及时等特性。对指标定义清晰明确,取数规则统一,随业务变化及时更新。建立数据质量考核评价体系。
数据价值实现:实现数据驱动业务,提高管理精细化程度。利用好数据分析加强风险管控。降本增效。业务创新。
可能你会好奇,怎么没看见特别提安全呢?这并不意外,安全其实是作为银行业的目标级别存在的,推进数据治理很大程度上就是要满足安全的需要。
结合以上两部分讨论的基础之上,我们来尝试“构造“一张关于数据治理的全景地图。
数据治理全景地图:运筹帷幄
数据治理很大,要解决的问题很多。不同视角去拆解,关注的内容也各不相同。如何从看似庞大以上众多内容中,找到一条思路,能够把以上提到的重点内容贯穿起来呢?
基于以上两部分的讨论,这里作者给出一种思维:”围绕价值,把事落地“。价值的背后是人的需要,所以你首先得分析哪些人有哪些需求。把事落地就得有组织有工具,不然手工治理太累人。
从这个思维出发,作者认为数据治理最重要的就是核心三点:人、事、组织。
人:以人为本,人的诉求就是数据治理要达到的终极目的。公司以盈利为目的,老板最关心就是将本增效,拆解起来就是价值和成本。监管机构追求的是稳定,拆解起来就是安全与合规。分析师和业务运营人员要的是高效,拆解起来就是效率和质量,就是数据得准,到手得快。总结来说就是价值、成本、质量、效率、安全。
事:数据治理的本质是围绕着数据展开,更准确一点来说是围绕着数据生产链路,最核心的数据质量问题也跟这条链路紧密相关。通过以上常见数据问题的讨论,你会发现标准和规范的对于数据治理相当重要,直接决定了其他数据治理目标的实现程度。围绕着治理的目标的下一步就是,治理流程的实施,最后是对治理效果的评估和评价。总结来说就是定标准、重实施、做评估。
组织:一个人走的很快,一群人可以走的很远。数据治理这样体量的事情,落地的很好很重要一点就是需要组织的保障,通过组织明确数据治理成员的权责利,通过制定一套治理制度来对其大家对数据治理认知的一致,通过制定一套问题处理 SOP 来约束治理过程的可靠性,并通过一定的奖惩制度对治理的结果进行评价。根据咨询公司对数据治理最新趋势的研判,数据治理不再仅仅是一个项目制,逐渐像工程化的方向发展,也就是更加长期化的趋势。这更得需要一个固定、稳定的组织保障。总结来说就是建团队、定制度、重执行。
总结:本篇主要通过一步步的拆解的手法,讨论了数据治理为什么这么庞大、为什么包含很多内容、治理中的那些痛点。带大家全面的了解和认识数据治理。最后以”围绕价值,把事落地“的思路,提出了一种方法:“人、事、组织”,帮助读者快速抓住数据治理的核心。后续作者会新起数据治理工程篇,结合企业生命周期,从落地的角度讨论数据治理具体实施是怎样的?欢迎订阅关注。
版权声明: 本文为 InfoQ 作者【小鲸数据】的原创文章。
原文链接:【http://xie.infoq.cn/article/125465555c1a1043b6a7dba3c】。文章转载请联系作者。
评论