写点什么

DataWorks 赋能企业一站式数据开发治理能力

发布于: 刚刚

企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。

第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在 2021 阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于 DataWorks 的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。 


值得一提的是, 诞生于 2009 年阿里巴巴集团内部的 DataWorks,不仅见证了阿里巴巴十多年大数据几次蜕变发展,更是阿里巴巴数据中台建设的最佳实践之一。如今 DataWorks 平台可以支撑阿里巴巴内部上百个业务团队的数据业务建设,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过 5 万名员工在 DataWorks 上完成数据分析、数据开发和数据治理工作。

那么,DataWorks 如何让大数据向 “敏捷制造” 演进,背后具备什么样的核心能力?在全链路数据服务—大数据与 AI 分论坛,DataWorks 产品负责人黄博远透露了 DataWorks 核心的三个“ONE”能力。

简单来讲,DataWorks 以一站式的理念,通过一条数据开发链路,一套数据标准架构,一套数据治理体系,与大数据计算引擎结合,让企业拥有一站式的数据开发与治理能力。


1、一条数据开发链路

很多的企业发展到一定阶段以后都会面临这种情况:1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。

2)大数据的引擎百花齐放,选择多样。不管是阿里自研的 SaaS 模式云数据仓库 MaxCompute、交互式分析 Hologres 和分析型数据库 AnalyticDB,还是开源的 EMR、CDH、Flink、Elasticsearch 等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。

3)数据与 AI 及应用如何更好地结合?大数据加工处理完的数据还需要结合 AI 算法,以服务化的方式给到数据应用,如何实现 BI 与 AI 一体化,释放数据价值。


针对以上痛点,DataWorks 可以帮助企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期管理整合到一条完整链路中。

首先满足企业在复杂网络条件下,DataWorks 实现近 50 种异构数据源的离线/实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了 MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算 Flink 版等大数据引擎,让多种计算引擎的数据开发治理工作都可以在同一个平台一站式的完成。最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行 AI 训练与在线预测服务,也可以通过数据服务以 API 方式给到 BI、大屏等各类数据应用。

2、一套数据标准架构

对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市,为应用提供源源不断的高质量数据服务。这个数字化转型涉及到非常多的技术和业务的协同改造,是一个系统工程。DataWorks 就是把这些共性的能力产品化,提升企业建设数据标准架构的效率。

3、一套数据治理体系

企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理的数据超过 1.7EB,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks 将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个平台,就具备一套完整的体系化的能力。


在分论坛现场,DataWorks 全新发布数据建模产品,让企业从业务视角进行数仓规划、数据标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作,提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。同时 DataWorks 将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。DataWorks 数据建模产品将于 2021 年 7 月开启公测,届时欢迎大家在阿里云官网搜索“DataWorks”开通体验。


除了数据建模外,DataWorks 覆盖了数据同步、元数据、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。

事实上,DataWorks 已经应用到各行各业的数字化转型中。在工业行业,DataWorks 帮助三一重工打通 86 个核心业务系统,处理每月 50PB 的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks 帮助企业建立 10 余种数据中台运营规范,完成四大场景 50+指标产出,规范数据治理流程,提升数据可用率。在钢铁行业,DataWorks 让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减 1 亿元。在互联网行业,得物 APP 通过 DataWorks OpenAPI 构建全链路数据血缘,自主研发全链路解析能力,下线 2 万张表与近千个计算任务,让企业成本降低 20%。

未来企业的数字化转型将对数据的治理与分析提出更高的要求,DataWorks 将帮助企业快速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“敏捷制造”成为企业数字化的“敏捷转型”。

用户头像

还未添加个人签名 2020.10.15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
DataWorks赋能企业一站式数据开发治理能力