写点什么

《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设

用户头像
云祁
关注
发布于: 6 小时前
《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设

一、前言

早在今年四月份,便看完了《大数据之路:阿里巴巴大数据实践》一书,再迅速过了邓中华老师这本《大数据大创新:阿里巴巴云上数据中台之道》,基本上可以窥见阿里数据中台的建设过程以及一些技术细节。其中宗华作为一位阿里老数据人的经验分享和心路历程,更是让我这个后辈受益匪浅。


二、大数据的发展历程和价值探索

从大数据的概念被正式提出,到马老师预言人类从 IT 时代走向 DT 时代,大数据浪潮迭起。


身为大数据开发者,我认同并且深信的一点就是,大数据一定会对社会创新、产业变革、业务创新及每个人的角色定位都会产生近乎决定性的影响。



阿里的云上数据中台,是历经阿里生态内各种业态挑剔的实战历练,云上数据中台除了自身具备的内核能力外,还向上与“赋能业务前台”连接,向下与“统一计算后台”连接,并与之融为一体,形成云上数据中台业务模式,因此也具备了对全社会赋能的可能。

2.1 大数据发展的关键事件

接下来简单介绍下国内外大数据发展的关键事件:



这其中重要的一点需要了解,那就是 2003 年谷歌公开了著名的“三驾马车”---内部对于海量文件的处理技术、GFS 分布式文件系统、并行计算处理框架 MapReduce、高效数据存储模型 BigTable,这些促成了分布式系统基础架构—Hadoop,为各个大数据组件的诞生打下基础。

2.1 大数据的内涵和外延

酝酿 20 年才发展起来的大数据技术,究竟会给现实世界带来怎样的改变?可以探索的大数据市场又在哪里?书中从以下四个方面进行了介绍。


  • 语义层面:‘数据’即所有信息的记录,例如用户访问网站的信息的转化过程的行为属性;大是巨量的意思,可以隐身为数量、形式、含义的丰富,保障实现被高保真的记录与回放

  • 实现层面:大数据是一套数据处理技术活方法体系,实现具体以上特征的数据的存储、计算、共享、备份和容灾、保密等,保证数据处理的时效性和拓展性

  • 服务层面:大数据的数据技术变革引发的新型信息服务模式,例如从数据探索出发,系统主动推送信息给用户做决策、给及其优化参数、基于数据的量变完成数据的质变

  • 应用层面:大数据是数据服务组合生成的新场景、新体验、日益增长的数据量非但不会使信息获取效率降低、质量下降,反而会让每个人都能得到快速的迭代,个性化的互联网服务。

三、阿里的大数据主张

在数据提供服务的基础上,阿里对数据的要求是准、快、全、统、通,简单的解释是标准统一融会贯通、资产化、服务化、闭环自优,这是阿里数据中台实现目标的核心。

3.1 云上数据中台赋能业务运行图


在这张运行图中,我们需要理解四个关键词:数据全面、数据打通、数据统一以及数据的闭环优化。


要实现上面的目标,如何做呢?


图片展示了数据中台运行的过程,主要抽象成三个部分。但在阿里最新的 OneData 方法论中,则是划分为 OneID、OneModel、OneService。


  • 第一部分:OneModel 致力于实现数据的标准与统一。

  • 第二部分:OneID 致力于实现实体的统一,让数据融通而非以孤岛存在,为精准的用户画像提供基础。

  • 第三部分:OneService 致力于实现数据服务统一,让数据复用而非复制。

3.2 阿里数据中台赋能业务全景图


在架构图中,看到最下面的内容主要是数据采集和接入,按照业态接入数据(比如淘宝、天猫、盒马等),把这些数据抽取到计算平台;通过 OneData 体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。


基于公共数据中心在上层根据业务需求进行建设:消费者数据体系、企业数据体系、内容数据体系等。


经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。

四、阿里云上数据中台的建设过程

4.1 烟囱式开发造成业务困扰和技术浪费

阿里的数据中台治理主要是在 2014 年开始的,在 2014 年以前,阿里的大数据建设处于烟囱式开发状态,这样的开发带来了许多业务的困扰和资源的浪费。如图,是 2014 年以前的阿里巴巴分业务自建数据体系的抽象图。



不难看出,阿里的每一块业务都有对应的 ETL 开发团队为其提供数据支持,而每个 ETL 开发团队都会按照自己的思路建设自己的数据体系,可见:


  • 数据流向会乱,无方向性的

  • 数据管理式无序的,处于失控状态

  • 除了浪费研发人力和计算存储资源、也必然满足不了业务的需求


当然,这个问题被放大式在本身业务以极快的速度发展的前提下,这样的开发导致的问题我们从两个方面来看。


业务困扰


在混乱的开发中,会造成诸多的数据问题,如因为指标的定义问题,导致同一指标有多个数据,最常见的指标为 UV,总结最业务的困扰主要一下三点:


  • 数据统一:数据标准规范难(命名不规范、口径不统一、算法不一致),数据任务响应慢,从而导致业务部门产生困扰而导致不满。

  • 数据未打通:各个数据团队各自为政,存在严重的数据孤岛现状;缺乏数据融通,数据价值发掘不够,从而导致业务部门看不清数据。

  • 成为成本中心且服务化不足:数据无方向性,依赖混乱,,数据管理无序,失控,成本化严重,面向应用的服务化投入不足甚至缺失。


技术困扰


浪费主要分两方面看,一方面是开发人力技术的浪费,开发人员日常在数据异常排查和数据调研上疲于奔命。另外一个是计算存储资源的浪费,在没有公共层的情况下,数据重复存储和计算非常常见。简单的总结为一下的三点:


  • 研发苦恼:烟囱式开发周期长、效率低。

  • 维护困难:源系统乎或业务变成不能及时反应到数据上,加之数据不标准,不规范,上线难,下线更难。

  • 时效性差:重复建设导致任务链路冗长、任务繁多,计算资源紧张;数据批量计算慢,时效性不强且覆盖 业务范围窄,即时查询返回结果慢。

4.2 数据公共层力求让业务和技术都满意

从上面的问题来看,数据的公共层建设是一件迫在眉睫的事情,那么数据公共层建设到底该如何进行,建设之前又要如何准备。这里就是 OneData 体系建设数据建设篇,OneData 体系的主要四个组成部分为:


  • 规范化数据建模:规范化数据建模,特别关注数据规范定义、数据模型设计和 ETL 开发等全流程

  • 规范化研发工具:用来落地和承载规范化建模的工具

  • 数据模型数据小库:规范化数据建模产生的所有分层数据模型的数据被统一存放在数据小库中

  • 面向应用的数据监控:所有的数据在面向应用是都会被监控和调用,且对上线、下线调优监控则会反馈到规范化数据建模中。


四个部分的运行图如下:



这些规范肯定是会与时俱进地被调优,但大部分的内容至今仍具有重要的指导意义,特别式其中的数据规范定义和数据模型设计,它们也因此被保留在从 2016 年开始再次升级的 OneData 体系中。



具体的 OneData 体系的方法论,包含三个关键点分别是数据仓库规划、数据规范定义、数据模型设计,这里我们不介绍技术细节,我在《大数据之路:阿里巴巴大数据实践》:看阿里人从IT时代走向DT时代的经验之谈!里都有讲述,大家可以自行学习。

4.3 阿里云上数据中台三大体系


经过多年实战,沉淀出了阿里云上数据中台内核能力框架体系:产品+技术+方法论。


历经阿里生态内各种实战历练后,云上数据中台从业务视角而非纯技术视角出发,智能化构建数据、管理数据资产,并提供数椐调用、数据监控、数据分析与数据展现等多种服务。


承技术启业务,是建设智能数据和催生数据智能的引擎。在 OneData、OneEntity、OneService 三大体系,特别是其方法论的指导下,云上数据中台本身的内核能力在不断积累和沉淀。在阿里巴巴,几乎所有人都知道云上数据中台的三大体系,如上图所示。



(OneEntity,现在应该是 OneID,讲数据从多终端、全渠道被采集到,并,与“人”相关的数据 ID 就有:业务账号信息、PC cookie、无线 imei 与 idfa 等设备标志、身份属性信息),这些信息加剧数据孤岛的形成,我们通过 OneID 进行打通。这里涉及 OneID 的设计,二维关系的构建和倒排表等,我会在后面阿里数据中台的文章中再详细讲述。


以下便是通过 OneID 构建的人物画像:



OneData 致力干统一数据标准,让数据成为资产而非成本;OneEntity(OneID)致力于统一实体,让数据融通而以非孤岛存在;OneService 致力于统一数据服务,让数据复用而非复制。


这三大体系不仅有方法论,还有深刻的技术沉淀和不断优化的产品沉淀,从而形成了阿里巴巴云上数据中台内核能力框架体系。

4.4 阿里数据中台及赋能业务模式支撑


阿里数据中台,经历了所有阿里生态内业务的考验,包括新零售、金融、物流、营销、旅游、健康、大文娱、社交等领域。


数据中台除了建立起自已的内核能力之外,向上赋能业务前台,向下与统一计算后台连接,融为一体。

4.5 数据中台技术的数字表现


今天,阿里处理的数据量已达 EB 级,相当于 10 亿部高清电影的存储量。在 2016 年双十一当天,实时计算处理的数据量达到 9400 万条/秒。而从用户产生数据源头采集、整合并构速数据、提供数据服务,到前台展现完成仅需 2.5 秒。


"友盟+”是阿里把收购的几家数据公司整合升级后,组成的一家数据公司。这里仅以 2017 年“友盟+”对外公开的部分指标为例,其中的数据覆盖 14 亿部活跃设备、685 万家网站、135 万个应用程序,日均处理约 280 亿条数据,这一切都建立在阿里强大的数据处理技术底座之上。

4.6 数据中台六大数据技术领域


阿里建设数据公共层之初,规划了六大数据技术领域,即数据模型领域、存储治理领域、数据质量领域、安全权限领域、平台运维领域、研发工程领域。


而在阿里数据公共层建设项目第二阶段完成存储治理领域,已经被扩大到资源治理领域,进而升级到数据资产管理领域,安全权限领域,升级到数据信任领域,因为很多工作已经在产品中实现,平台运维领域不再作为一个数据技术领域被推进,数据模型领域与数据质量领域还在持续推进中,不过增加了许多新的内涵,智能黑盒领域则是新起之秀。


由此可见,数据技术领域不是一成不变的,而是随着业务的发展和技术的突破不断扩大、 升华的。

4.7 数据中台建设方法论

4.7.1 数据中台建设方法论体系的全局

(1) 全流程一体化:即从数据采集到数据服务实现全链路通。在产品层面,不会让用户在不同使用阶段来回切换于不同产品。


例如,用户要做实体识别、用户标签画像等,如果要依赖的数据在另外一个产品中, 甚至需要使用风格迥异的产品来完成,则用户会不知所措。所以,以数据建设为例,要实现数据从采集到标准化、实体识別、标签画像及最终面向应用的一站式服务。


(2) 向上多样化赋能场景:不仅要有通用产品,还要有行业产品及尊享产品。应向不同的应用场虽和用户,提供差异化服务。


例如,阿里数据中台向阿里生态内小二提供数据产品时,就包括数据工具、专题分析、 应用分析、数据决策这四个层次的产品和服务。


(3) 向下屏蔽多计算引擎:不管是哪里的云计算服务,都应该尽可能兼容甚至屏蔽的,让用户在应用时感觉简单。


在阿里 10 年大数据建设历程中,数据建设的底座依赖至少经历了 Oracle— GP-Hadoop—阿里云计算平台的变化过程。很多大数据应用与创新者也一定会面临类似的变化。


所以,对于产品和服务,需要连同生态合作伙伴一起努力实现屏蔽多种计算引擎,不管底座是阿里云公共云,还是阿里云专有云,还是自建的私有云,都可以在此之上构建数据并实现平滑切换。


(4) 双向联动:在构建大数据及服务业务应用与创新的过程中,业务和技术是需要协同互动的,而不是一方是另一方的资源这种单向关系。


一般来说,对于业务需要技术的协同这一点,人们很容易理解,但对于技术同样也需要业务的协同这一点,人们可能就不太容易理解。例如,要对消费者进行识别、刻画、触达和服务,则需要业务部门在业务前台按照数裾技术规范和标准进行布点,以便采集到数据,以及需要业务人员与技术人员一起讨论刻画消费者标签的关键因素,并确定哪些标签符合业务线的价值诉求。

4.7.2 OneData 体系方法论

OneData 体系方法论至少包括:数据标准化、技术内核工具化、元数据驱动智能化 3 个方面。


(1) 数据标准化。要从源头实施数裾标准化,而非在数据研发之后,基于数据指标梳理的数据字典实施数据标准化。因为,只有每一个数据都是唯一的,数据模型才能稳定、可靠,数据服务才是靠谱、可信的。


(2) 技术内核产品化。所有的规范、标准等,如果没有一个全流程的工具作为保障, 则无法实现真正意义上的全链路通,因此,我们首先推进技术内核全面工具化。


(3) 元数据驱动智能化。前文提到,阿里正在持续努力实现数据建模后的自动化代码生成,以及保障其实现和运行的智能计算与存储框架。为什么阿里能做这件事情?其中一个重要原因就是,在源头对每个元数据进行了规范定义,尽可能实现数据的原子化和结构化,并将其全部存在元数据中心里。这些元数据对于计算、调度、存储等意义非凡,因此有望实现从人工到半自动化,进而实现智能化。

4.7.3 OneEntity 体系方法论

OneEntity 体系方法论至少包括:技术驱动数据连接、技术内核工具化、业务驱动技术价值化 3 个方面。


(1) 技术驱动数据连接。OneEntity 要实现实体识别,首先依赖很强的实体识别技术,所以要用技术来驱动数据连接。


(2) 技术内核产品化。产品化是目标,其发展过程不是一蹴而就的。一定要往这个方向努力,否则每一次进行标签画像(哪怕是类似的标签),都要通过人力重复做一次,这实在是一件让人非常痛苦的事情。所以,要高效地进行实体识別、用户画像,工具化是一条必由之路。当然,全部工具化总是很难实现的,一定还有工具无法替代人脑的部分,所以,努力追求的是将人脑智慧尽可能沉淀在工具型产品中。


(3) 业务驱动技术价值化。正如前文所述,将数据从孤岛变得融通,进而实现高价值,是需要业务来驱动的。在此过程中,再一次体现了业务和技术要“背靠背”“你情我愿”地进行双向联动的。

4.7.4 OneService 体系方法论

OneService 体系方法论至少包括:主题式数据服务、统一但多样化的数据服务、跨源数据服务 3 个方面。


(1)主题式数据服务。举一个例子,假设用户想要看的是“会员”这个主题下的数裾.,至于“会员”主题背后有 1000 张物理表还是 2000 张物理表,他都不关心。而主题式数据服务要做的是,从方便用户的视角出发,从逻辑层面屛蔽这 1000 张甚至是 2000 张物理表,以逻辑模型的方式构建而非物理表方式。


(2)统一但多样化的数据服务。例如,双十一当天上百亿次的调用服务是统一的,但获取形式可以是多样化的,可以通过 API 提供自主的 SQL 查洵数据服务,也可以通过 API 提供在线直接调用数椐服务。


(3)跨源数据服务。不管数裾服务的源头在哪里,从数据服务的角度出发,都不应该将这些复杂的情况暴露给用户,而是尽可能地屏蔽多种异构数据源。


业务在发展,技术在迭代,方法论也必然不断升级,在实战中沉淀、丰富云上数据中台建设方法论。

五、数据中台产品化服务


在推进阿里数据公共层建设之初,就意识到业务与技术“背靠背"、双向联动的重要性。


在推进阿里巴巴数据公共层建设时,虽然当时在业务上虽然有了几个月的缓冲时间,但维稳业务支持并不是停止业务支持,基本等同于“开着飞机换高能引擎”,虽然有时间和机会,但要快、很、准。

5.1 数据中台核心产品 Dataphin


Dataphin 是一款 PaaS 产品,致力于一站式解决智能数据构建与管理的全链路诉求。具体来说,Dataphin 而向各行各业的大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费的全链路的大数据能力,包括产品、技术和方法论等,助力客户打造智能大数据体系,以驱动创新。


智能大数据体系的建设,极大地丰富和完善了阿里巴巴大数据中心,OneData、 OneEntity、OneService 三大体系也渐趋成熟,并成为阿里巴巴中上至 CEO、下至一线员工共识的三大体系。


Dataphin 将指导解决所有与大数据体系建设有关的 OneData、OneEntity、OneService 体系方法论,及其在解决阿里巴巴数据公共层建设,及后续数据体系建设中的实际问题的具体做法全部沉淀下来。

5.2 Dataphin 的 PaaS 服务

Dataphin 在赋能阿里生态内外的驱动力下,到底要关注哪些痛点与核心诉求?在 Dataphin 沉淀过程中,还要考虑哪些因素?Dataphin 在解决这些问题的过程中,提供了哪些独树一帜的核心能力?上图所示的正是 Dataphin 在沉淀过程中考虑的各种因素,以及相应的核心能力输出。



阿里生态内遇到的很多痛点和诉求,阿里生态外的各行业客户也会面临,具体介绍如下。


  • CEO 关心数据对公司的战略意义及现实意义:这份数据是准确的吗?早上一起床就能看到数据吗?在数据上的投入产出比是怎样的?……

  • CCO/CFO 关心数据对业务的意义和价值,以及如何考量:大数据能助力全局监控,进而辅助投资决策吗?每一条业务线运营都能用同一份数据吗?大数据如何助力数据化运营并无处不在地深入业务?大数据是否会提升业务运营的效率和效果,以及如何考量?……

  • CTO/CFO 关心如何让数据又准又快又成本可控:成本消耗是否在可控范围内?在技术资源上还有多少优化、提升的空间?技术人才的研发、维护投入是否有改进和提升空间?……

  • —线业务人员关心数据对自己达成业务自标的作用:我能又准又快地看数据和用数据吗?我的数据需求能否得到快速、无差异的响应?这些数据能否帮助我提升业绩,及时反映业务的完成进度?……

  • —线技术人员关心如何既优又超前地提供服务:计算是否够快,存储是否够优?代码开发是否可以提速,线上任务是否可维护?技术是否有可能在满足业务的同时主动赋能业务?……

5.3 数据中台核心产品 Quick BI


大数据构建与管理完毕之后,需要利用 Quick BI 这一智能数据与可视化组件将数据背后的价值展现在人们面前。


Quick BI 扭转了当初重度依赖专业数据分析人才的局面,能够赋予一线业务人员智能化的分析工具,真正的做到了“数据化运营”让数据产生价值。


现在,越来越多的企业开始数据上云,也有的行业如政府、金融因为严苛的安全需求而自建本地数据库,导致企业出现数据分散式存储的状况。而 Quick BI 却可以链接各种数据源,满足云上和本地的不同需求,整合为可被统一调度的数据集。


Quick BI 的可视化能力也不容小觑,内设地图、柱图、雷达图等 21 种数据图表,任何场景下的报表展示均毫无压力。特别令人惊喜的是 Quick BI 特有的类 Excel 的电子表格功能,它足以让企业数据分析人员兴奋不已,不仅延续了本地化操作的经验,也更加贴合中国式复杂报表的制作需求。

六、一位老数据人的情怀


最后的最后,我读到了宗华老师作为一位老数据人、一位前辈她的心路历程。让我知到在阿里,有这样一群人,他们有情、有义、有担当、有梦想又有极强战斗力,他们大胆地想象着如何帮助世界更加美好,而我们大数据人也已经走在这条充满荆棘且崎岖的道路上!


A.1



A.2



A.3






发布于: 6 小时前阅读数: 8
用户头像

云祁

关注

公众号:云祁QI 2020.06.23 加入

我是「云祁」,一枚热爱技术、会写诗的大数据开发猿,专注数据中台和 Hadoop / Spark / Flink 等大数据技术,欢迎一起交流学习。生命不是要超越别人,而是要超越自己!加油 (ง •_•)ง

评论

发布
暂无评论
《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设