写点什么

数据中台稳定性的“四高” | StartDT Tech Lab 18

作者:奇点云
  • 2022 年 6 月 23 日
  • 本文字数:2616 字

    阅读完需:约 9 分钟

数据中台稳定性的“四高” | StartDT Tech Lab 18

写在前面

这是奇点云技术专栏「StartDT Tech Lab」的第 18 期。

在这里,我们聚焦数据技术,分享方法论与实战。一线的项目经历,丰富的实践经验,真实的总结体会…滑到文末,可以看到我们的往期内容。

本篇由奇点云 DataSimba 团队带来:


作者:远浪、鱼飞、若曦

阅读时间:约 8 分钟


降低成本,提高效率,辅助决策…业界只道中台好,而当我们走进幕后,发现企业在使用数据中台的真实场景中,也会遇到一些问题:

数据分析输出不及时,导致业务部门无法及时拿到结果;数据加工与计算不准确,导致决策出现偏差;平台服务不稳定,则还会引发用户流失、运维成本高等一系列问题。

这些“幕后故事”都指向一个概念:数据中台稳定性。


0. 数据中台的“稳定性”是什么?


数据中台的“稳定性”是什么?

我们认为,稳定性是数据中台必备的一种性能,它确保数据中台能对数据存储计算、中台应用架构以及平台自身做精细化管控及保障。

说人话,也就是只有具备稳定性的数据中台,才能精细化地保障数据存储计算正常、高效运行,才能管好应用架构及平台自身,及时应对和处理突发的各种问题。


那怎样的数据中台才是具备稳定性的呢?

我们认为,有四大必备要素高可用,高并发,高效调度,高效运维


高可用:可用性至少满足 99.999%。

高并发:数据计算能力达离线计算亿级+/小时,实时计算数千万级/小时;数据 API 服务满足 QPS(Queries per Second,每秒查询率)10 万+。

高效调度:支持数十万级别任务调度。

高效运维:支持秒级的告警、分钟级的定位问题与止损、小时级的恢复故障影响。

 

1. “高可用”的数据中台


数据中台要有稳定性,“高可用”是重要基础。

“高可用”(High Availability),通常指一个系统经过专门的设计,减少系统不能提供服务的时间,尽可能地保证服务长期可用。

打个比方,如果系统每运行 10 万个时间单位,就会有 1 个时间单位无法提供服务,那么系统的可用性就是 99.999%。


一个“高可用”的数据平台需要从这五个方面考虑:网络业务服务中间件数据库数据本身

1. 网络:采用设备冗余、链路捆绑、环网技术等,保障在网络出现故障(错误)后能快速自动恢复;

2. 业务服务:服务节点本身无状态,可部署多节点,以保证当任一节点异常(宕机)时,服务仍可对外提供能力;

3. 中间件:中间件以注册中心、哨兵、主备等方式,以保证当中间件任一节点异常(宕机)时,服务仍然可正常访问;

4. 数据本身:数据需多备份,以提高数据本身的容错性,防止数据丢失;

5. 数据库:分布式数据库需采用多副本,非分布式数据库需采用主备、数据定时备份的方式。


奇点云服务中的一家知名消费品企业,每日需承载亿级数据量处理加工,向下对接几十家供应商,向上承接多条业务线的数据运营看板。一旦数据中台出现问题,可能会导致次日各业务线数据异常,因此对高可用有非常高的需求。

奇点云的云原生数据中台 DataSimba 根据客户情况,从网络、数据本身、数据库、中间件、业务服务五个角度进行加固,最终保证客户数据平台可用性达 99.999%。


2. “高并发”的数据中台


高并发(High Concurrency),如字面意思,它指一个系统经过设计,能同时并行处理许多请求。

具体而言,高并发能力主要体现在数据集成数据服务两个方面:

· 数据集成层面,在对源数据库影响最小的前提下,保证数据 ETL 的并发采集能力;

· 数据服务层面,能更快地将加工之后的结果数据供客户决策、报表分析等。


​从数据集成到数据服务


奇点云 DataSimba 的高并发具备以下特点:

1. 服务采用集群式分布式部署,可扩展性强;

2. 根据不同的数据级别,采用不同的数据存储方案;

3. 高并发方案支持熔断、限流和降级等;

4. 数据服务 QPS 可支撑 10 万级别。


某国内证券行业头部企业客户有亿级 C 端用户,需要及时将 C 端数据采集到数据中台,并将数据经过标准化补充和计算,最终为 C 端用户提供服务。DataSimba 的高并发与数据处理能力 100%支持了该客户的需求。


3. “高效调度”的数据中台


具有稳定性的数据中台,也需要有好的调度服务:面对海量任务,可根据企业的资源、任务优先级、加入时间等因素,有条不紊地执行任务。在每一项任务及时完成的同时,节约企业的资源成本。


​“高效调度”逻辑示意


DataSimba 的高效调度具备以下特点:

1. 多类型任务兼容性高:支持 DataX、Flink、Python、Hive、Spark 等不同类型的任务进行统一的调度执行服务;

2. 资源利用率高:任务决策系统根据不同的任务资源占用度、剩余物理资源、任务依赖优先级,合理地调度任务执行顺序;

3. 实时调度优化:任务执行状态实时监控,及时对失败的任务重新调度。


以某室内装修 3D 设计软件客户为例,企业有庞大的 C 端用户群体,日需调度的任务达到 10 万级别,且任务之间依赖复杂度高。DataSimba 支撑企业完成了日 10 万级别的任务处理。


4. “高效运维”的数据中台


运维是数据中台稳定性的后盾。

数据中台的高效运维主要体现在:能够快速发现问题,同时具备解决问题的能力,能够自恢复,最大限度地减少企业对数据中台的维护成本。


以 DataSimba 为例,奇点云从以下 3 点实现数据中台的高效运维:

1、分布式链路追踪

DataSimba 采用分布式链路追踪,具备多语言自动探针、兼容多种开源架构的基础设施与组件、基础设施与组件的自动探针。


​分布式链路追踪


2、智能监控和告警

当报告任务发生超时、任务失败、超出设置告警规则的范围等情况,DataSimba 会自动实时识别,并发出告警信息,提示对应告警对象。



3、自恢复

系统的核心业务模块需支持遇故障时自动记录错误节点,并具备自恢复功能,以保障任务运行时的数据完整性与准确性。

DataSimba 具备全面的监控与告警机制,目前达到了秒级的告警、分钟级的定位问题与止损、小时级的恢复故障影响。



举个“栗子”,某头部快消企业客户,在数据中台有近万个任务实例,且各个任务实例之间数据计算依赖性与耦合性高。DataSimba 运维的低成本、及时响应、任务数据准确性与完整性等特性,充分满足企业要求,有效应对企业在使用中出现的各类异常场景,得到了一致好评。


5. 小结


我们认为,能带来业务价值的数据中台,才是客户真正需要的数据中台


为此,数据中台必须能准确地、稳定地、高效地为企业自身所用——唯有具备稳定性的数据中台,方能有效保障企业数据的完整性与准确性,提升服务的可用性,同时实现智能化运维,降低运维成本,为用户带来良好的使用体验,为精准决策提供支撑,实现降本增效。


回顾前文介绍的关键点,高可用、高并发、高效调度、高效运维,这“四高”构成了数据中台稳定性的四个必备要素。奇点云之所以重视数据中台稳定性,并选择将上述要素糅进云原生数据中台 DataSimba,是因为我们和客户站在一起。


用户头像

奇点云

关注

AI驱动的数据中台创导者 2019.08.05 加入

还未添加个人简介

评论

发布
暂无评论
数据中台稳定性的“四高” | StartDT Tech Lab 18_数据库_奇点云_InfoQ写作社区