写点什么

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

作者:雨果
  • 2022-10-18
    北京
  • 本文字数:1451 字

    阅读完需:约 1 分钟

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

2005 年 Hadoop 出现的时候,大数据技术开始普及。

从 Hadoop 到数据湖:

Hadoop 相比经典数仓主要有两个主要优势:

  • 完全分布式,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;

  • 易于扩展,弱化数据格式。当数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离。当数据被使用的时候,可以根据不同的模型读取,满足异构数据灵活分析的需求。

数据仓库和数据湖对比

随着互联网产业的发展和采集技术的成熟,大量(半)非结构化数据涌现,诸如半结构化的日志,非结构化语音和视频,携带时序和空间信息的 IoT 设备等。

与此同时,伴随着 Hadoop 技术日趋成熟,2010 Pentaho 创始人兼 CTO James Dixon 在纽约 Hadoop World 大会上提出了数据湖的概念:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,仿佛各个数据源就像溪流一样,直接流入成湖。

数据湖理解图

数据湖概念的提出,是 Hadoop 从开源技术走向商业化成熟的标志。企业基于 Hadoop 构建数据湖,真正将数据作为一项企业核心资产,拉开了 Hadoop 商用化的大幕。

但是,一个商用的 Hadoop 包含 20 多种计算引擎,数据研发涉及诸多流程,其技术门槛限制了 Hadoop 的商用化进程。

那么数据开发能否像工厂生产一样,直接在流水线上完成呢?

大数据(开发)平台的兴起——数据工厂时代

大数据平台具有很广阔的范围,在此提到的大数据平台,指的是面向开发使用的大数据开发平台。

对于一项数据开发任务,在完成一个需求时,常见的流程是:

  • 要把数据导入到大数据平台中,然后按照需求进行数据开发;

  • 待开发完成以后要进行数据验证比对,确认是否符合预期。

  • 接下来,数据发布上线,提交调度;

  • 最后,日常的任务运维,确保任务每日能够正常产出数据。

如此繁杂冗长的工作流程,如果没有高效平台作为支撑,就类似写代码没有一个好用的 IDE,用文本编辑器写代码一样,别人完成十个需求,你可能连一个需求都完成不了,效率异常低下,根本无法大规模的应用。

大数据平台概念的产生,是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。大数据平台是面向数据研发场景,覆盖数据研发完整链路的工作台。

基于开发的使用场景,可分为数据集成、数据开发、数据测试等。平台的底层是以 Hadoop 为代表的基础设施,分为计算、资源调度和存储(如图)。

大数据平台架构概念图

Hive、Spark、Flink、Impala 提供了大数据计算引擎:Hive、Spark 主要解决离线数据清洗、加工的场景。目前,Spark 用得越来越多,性能要比 Hive 高不少;Flink 主要是解决实时计算的场景;Impala 主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为 Yarn 的资源调度管理框架内,由 Yarn 来分配计算资源。

当前最新的研究方向中也有基于 Kubernetes 实现资源调度的,例如在最新的 Spark 版本(2.4.4)中,Spark 已经能够运行在 Kubernetes 管理的集群上,这样的好处是可以实现在线和离线的资源混合部署,节省机器成本。

数据存储在 HDFS、Kudu 和 HBase 系统内。HDFS 不可更新,主要存全量数据,HBase 提供了一个可更新的 KV,主要存一些维度表,Kudu 提供了实时更新的能力,一般用在实时数仓的构建场景中。

大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个报表或者数据产品中。

但随着数据需求的快速增长,报表、指标、数据模型越来越多,越来越多人反馈找不到数据,数据不好用,数据需求响应速度慢,这成为阻塞数据产生价值的绊脚石,数据中台即将面世。


猜你想看:

数据中台的前世今生(一):数据仓库——数据应用需求的涌现


用户头像

雨果

关注

全球领先的DaaS厂商,构建下一代数据中台 2020-06-29 加入

500强集团中已有30多家选用;支持元数据管理,数据治理,数据开发,数据服务化,数据市场等功能; 免费下载试用官网地址:http://www.maicongs.com/#/home/probation

评论

发布
暂无评论
数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展_数据中台_雨果_InfoQ写作社区