集中回答客户关注的数据云场景的四个问题
我是数据云产品的负责人王乐珩。今年上半年,我陆续拜访过几十家客户,发现今年的经济形势虽然欠佳,但是数据云的需求和立项依然很多。以下是客户们最关注的四个问题:
第一个问题:如何落地数据工程 SOP,保证生产稳定性?
数据工程就是把数据的集成、研发、生产、运维、治理和服务看成一条生产线,数据工程就是这条生产线的图纸和最佳实践。
我发现,大多客户都关注过去一年出现过哪些生产事故,如何监控和预警,如何保证生产线迭代的质量。
在去年发布会上,我详细讲过数据云的企业级 RAS 方案。DataSimba 平台,有成熟的测试和发布 CI/CD 工具和方案,有 Information Schema 元数据模型用于可观测性监控,这次就不再展开了。
第二个问题:如何应用新一代 MPP 引擎简化架构,同时预留兼容性?
也有不少客户在和我讨论新一代的分布式 OLAP 数据库(或简称为 MPP)。目前的国产替代大潮下,国内数据库创业团队除了研发 OLTP 产品,也都纷纷推出了自己的 OLAP/HTAP 产品。客户侧也在尝试,这些产品能否简化原有的大数据平台架构。
回到基本原理上思考,数据仓库领域的现状如下:
首先,成熟的多引擎 Lambda 架构依然是大多数企业唯一方案。其原因在于,没有任何单体引擎能 100%覆盖海量数据场景。如果任何人告诉你,他的单一一个引擎能包打天下,别犹豫,他在忽悠你。
当然,多引擎 Lambda 架构的缺点也很明显:技术复杂、集群规模很大、运维成本很高、数据治理成本很高。因此,此前找我们做项目的客户,大多数都是能拿出几百万预算、数据量达到 PB 级别、拥有相对完整数据团队的头部客户。
由于这些年数字化转型效果明显,越来越多企业开始立项。这其中就包含数据量没那么多的客户。这时数据架构师就面临一个挑战,他必须结合自身现实情况,对主流方案做必要简化,同时预留未来演进的方案。他们往往考虑把离线引擎和即席查询引擎合并,同时存算分离,让实时引擎直接落盘到即席查询引擎,这样本质上就把原来 3 个引擎的方案,简化为 1.5 个引擎。近期一些国产 MPP 引擎对这个场景客户需求也积极做出回应。
大家都知道我们核心技术是 SimbaOS Kernel。本质上是把 OLAP 多种数据库引擎抽象为一组对象体系,例如项目(Project)、任务(Task)、作业(Job)、配额(Quota)、表(Table)、文件(File)等等,让上层和底层复杂性解耦。
以往我们讲得比较多的是 Hive、Spark、Flink 等等比较重的大数据引擎。这些引擎的特点是在超大规模数据量场景下可以有很好的可拓展性,例如几百 P,上百个节点的集群,他们对硬件的起步配置往往需要 8 个节点,但是当数据量只有几百 TB 中型场景这些引擎就超配了。
针对中型数据场景同样也可以利用 SimbaOS Kernel 管理 ClickHouse、Apache Doris、StarRocks、TiDB、OceanBase 等 OLAP 引擎。在数据量不大的阶段,先利用这些引擎支撑住数据仓库场景,等数据量开始暴增的时候,再逐步打开相应的离线引擎、实时引擎、图引擎、时序引擎。我们曾经陪着上百个客户,沿着演化路径不断提升。对此,我们也推出了对应的版本,后面会详细介绍。
第三个问题:怎么做全域数据治理?如何支持数据资产入表?
下一个热点问题,数据资产入表是近期很受业内关注的大事。本质上,数据资产入表是全域元数据治理的一个典型应用。全域元数据治理技术最近有 2 个重大变化,引起了客户的强烈关注。
第一点,传统元数据治理,只限于数据仓库三层结构内部,而对于上游数据源的数据结构和数据质量波动,最多能在 ETL 数据拖过来的时候报警。但是自从 Data Fabric(数据编织)概念被提出,开始把元数据采集器伸出去,监控上游的 OLTP 数据源,例如财务系统、ERP 系统的表结构和依赖关系。
第二点,过去元数据治理只是数据基础设施团队内部的一个技术话题。数据资产入表的需求,让这个技术被业务团队关注,甚至达到战略财务的层面。
数据资产入表,还有其他很多关键应用。本质上都一样,都需要收集的上下游元数据、监控整个数据血缘网络的变化的技术。
第四个问题:数据云平台如何利用和支撑 AI 创新?
最近数据和人工智能技术受到了所有企业的关注。大量企业在启动自己的 AI 项目。我们的客户也都在讨论,数据基础设施与 AI 的关系。
这件事有 AI for Data Cloud 和 Data Cloud for AI 两个方向。
AI for Data Cloud 有很多应用场景。例如我们使用算法对 DataSimba 上的异常行为进行检测。
至于 Data Cloud for AI,本质上就是基于数据云的存算能力,建立一个算法模型的生产线,也就是 SimbaOS 上的 MLOps。MLOps 分为 3 个阶段:CI、CD 和 CT。
为什么要在数据云平台上混跑 MLOps?第一数据安全,第二复用省钱。今天也会和大家介绍如何通过我们的算法工厂来完成这一系列工作。
DataSimba 新版本解决以上 4 个问题
基于上面对实际市场的观察,我们按照客户的需求迭代数据云产品。大家都熟悉了,数据云产品分为 4 层,底下的存算引擎和安全引擎,中间的 OS kernel,上面包含 DataSimba 和各种增值应用。SimbaOS 正在支撑上百家客户的多云、多引擎、多应用场景。
基于不同的需求场景,我们搭配出 DataSimba 的不同版本。此前已经推出标准版、专业版、旗舰版和红旗版。这次依据用户最关心的场景需求,我们新推出了敏捷版,进一步完善了产品线,让数据云简单一点。
版权声明: 本文为 InfoQ 作者【奇点云】的原创文章。
原文链接:【http://xie.infoq.cn/article/5e5cde140c168bbb5346ffbfe】。文章转载请联系作者。
评论