在找稳定的企业级数据云平台?奇点云 DataSimba R4.9 LTS 发布
不久前,奇点云的数据云全系产品如期发布新一季商业化版本更新:
数据云平台 DataSimba:R4.9 LTS 版发布,稳定性全面加固,功能上新;自 R4 系列起架构升级,封装底层复杂性,支撑上层快速构建数据模型与应用。
数据存算引擎 DataKun:R2.0 发布,在安全稳定、智能运维、云原生、自主可控等层面均有优化。
数据安全引擎 DataBlack:R2.0 发布,支持全域数据安全,内置行业模型,开箱即用。
数据服务工具箱 Simba Toolkits:SimbaTag(标签工厂)、SimbaMetric(指标工厂)成为独立版本,可搭载于企业现有数据平台之上,为标签管理、指标管理提效。
本文聚焦 DataSimba,解读稳定性加固、功能上新及架构升级。
稳定性加固,妥妥“企业级”
LTS,即 Long Term Support,长期支持版。数据云 DataSimba 每个 R 系的最后一个版本,都作为 LTS 版发布。相较上一个 LTS 版(R3.8),DataSimba R4.9 及 DataKun R2.0 进一步加固了稳定性,支持高可用、高并发、高效调度、高效运维。
“企业客户使用 DataSimba 的深度和强度已不同以往。”奇点云合伙人、CTO 地雷表示,“数据云必须具备足够的稳定性,方能保障数据全链路日常高效运行,基于业务需求产出结果。即便遇到故障、超负荷、误操作等情况,也能足够皮实不崩溃,及时反馈并定位问题,甚至能提前智能化给出预警,规避对业务的影响。”
在“企业级”标准要求下,本次更新主要围绕以下 5 项专题,开展稳定性优化:
(1)调度更智能、更可靠
DataSimba R4.9 进一步优化了调度策略以及调度通讯框架,让调度更智能,有效减少“塞车”,保障系统稳定运行。
具体而言,我们分离了业务调度和资源调度,让彼此的职责更清晰、策略更易扩展,并结合实际业务场景,深层优化了通讯协议。优化项包括:
· 业务调度:基于任务特点进行了队列的拆分,在同一队列下再结合优先级、项目、租户、任务数、任务配置等进行综合打分,从而判断队列分发的顺序。
· 资源调度:基于节点并发数及负载程度进行即时的精准调度,大大提升任务执行的效率,实现负载均衡。
· 调度通讯框架:对通讯协议以及包的大小、发送、接收策略等多维度进行了深度优化,整体通讯性能提升了 30%以上。
(2)应用 100%支持高可用
DataSimba R4.9 内所有业务应用及中间件,均支持自动化的故障恢复与容错实现。在出现故障、失效等问题时,系统将继续正常运行并提供服务。
· 所有的业务应用都基于 Kubernetes 管理,同时支持多实例集群部署。
· 包括 Redis、Kafka、K3s、Nacos 等在内的所有中间件均支持高可用部署,业务代码已全部适配完成。针对部分中间件,我们也已完成版本升级,来进一步提升组件的可靠性和安全性。
(3)全方位监控告警
监控告警是稳定性重要的一环,方便事中事后快速发现与定位问题。DataSimba R4.9 从业务、应用、中间件、服务器等多个维度,实现了监控告警全覆盖。
· 针对业务异常,依托自研的实时告警系统,基于业务指标采集和规则配置,可通过邮件、短信、钉钉等多渠道监控告警。
· 针对运维异常,采用现有成熟的告警平台,对 Java 虚拟机、线程池、内存、CPU、磁盘、网络等多维度实现全方位的监控与告警。
(4)引擎核心组件全量压测
在 DataSimba 底层,数据存算引擎 DataKun 也要足够稳定。
在本轮更新,数据存算引擎 DataKun 的核心组件完成全量压测,包括 YARN、HDFS、Hive、Spark 等在内的所有核心组件稳定性及性能均得到了充分验证。
压测基于 DataSimba 标准版的配置进行(专业版、旗舰版性能比标准版更高)。我们采用单压、混压的方式对 DataSimba 做假设性压测与功能验证。并结合压测结果数据,对组件进行配置调优,进一步提升集群的整体吞吐能力。
(5)系统破坏性测试
为了保障系统在极端场景下的可用性,DataSimba R4.9 做了比 R3 时期更为严格的破坏性测试。
所谓破坏性测试,简单来说就是当面对异常、组件不可用等情况时,系统能否“稳住”,给出正确反馈——事实上,破坏性测试不仅会考察系统的监控告警能力,更考察系统自愈的能力及数据状态的一致性。
在完成应用破坏、中间件破坏、DataKun 组件破坏等等多个场景的破坏性测试后,我们在本轮更新做了如下优化:
· 优化监控告警机制,出现组件异常时立即触发通知;
· 优化前端提示,出现故障时直观展现报错,便于用户定位问题;
· 增加重试策略,当组件恢复后系统可以自愈运行,减少人工干预;
· 迭代任务巡检机制,在极端情况下也能保障任务状态的一致性。
功能上新,从容应对复杂场景
相较于上一个 LTS 版本(R3.8),DataSimba R4.9 LTS 共上新 142 项新功能,优化了 113 项功能,提供了 32 项问题的修复补丁,并基于用户研究进一步迭代了交互设计。
篇幅所限,本文仅简单介绍其中 3 项亮点功能,更详尽的 Release Notes 可以向您的客户成功经理、产品技术顾问了解。
支持多租户,既安全又集约
DataSimba R4.9 支持多租户,用户可以在 DataSimba 的一个工作空间(Workspace)里,为多个团队开设租户(Account),提供相互独立的空间,实现资源隔离。
基于多租户体系,企业的数据团队将以“平台”身份服务更多部门,合理优化资源利用,而不再出现多团队互抢资源的情况,也免去了各团队自行运管数据基础设施的烦恼。
为匹配多租户体系,我们采用了双层身份认证、双层权限校验、双层存储加密,来保证租户资源的强逻辑隔离与数据安全。同时,通过动态的权限管控,DataSimba R4.9 支持租户间数据安全共享,而无需数据迁移成本。
Task/Job 双层混合调度,提高执行效率及资源利用率
DataSimba R4.9 采用 Task/Job 双层混合调度,任务(Task)与作业(Job)级别调度互相配合,以完成任务调度及资源分配。
其中,任务(Task)负责决定任务在可用资源上的调度顺序,控制任务的调度周期;作业(Job)则通过与 Quota(空间域里的其中一个对象)配合,完成底层资源的调度与优化。
在双层混合调度体系中,我们加入了“潮汐车道”等调度策略,可由企业用户按需选择。例如,可以周期性调整资源,来平衡高峰期、低峰期资源的分配利用,也可以预留一定资源,确保高优先级任务完成。
配置图引擎,支持图数据处理与图算法优化
DataSimba R4.9 配置了图引擎(Graph Engine),支持用户通过 DataSimba 存储、管理、分析大规模的图数据,开发交互式的图计算作业,以及处理复杂的图算法。
以 OneID 场景为例,基于奇点云自研的“大规模多引擎混合调度技术”,我们采用了“流批图一体”架构——结合实时计算、离线计算、图计算三种引擎的能力,批处理的图计算结果对流计算的结果进行修正,再以 API 的方式对外(例如对分析云产品)提供服务。
业内独家的技术架构让奇点云全域 OneID 方案在计算性能、复杂场景计算及可解释性上均具优势。其中,图计算的高效图遍历和关联操作能力有效提高了海量多端用户融合分析的准确性。
架构升级,让数据模型与应用构建更简单
DataSimba R4 与 R3 系列在架构上有极大不同。DataSimba R4.9(包括自 R4.0 以来的所有产品版本)在架构上分为 3 层,自上而下分别为:
- Simba Toolkits(数据服务工具箱):包含 SimbaMetric(指标工厂)、SimbaTag(标签工厂)等多种效率工具,内置科学的数据工程方法论,帮助数据工程师提升数据资产研发效率。
- Simba IDE(数据云集成开发环境):提供离线同步、实时同步、监控告警、资产地图等功能,满足从数据集成到开发、运维及服务等全链路场景。
- Simba OS(云数仓内核):根据“资源抽象,接口统一”的原则,将一系列复杂的业务对象抽象为 7 个域、32 个对象,向上支持数据业务。例如,“分级多域”、“多租户”业务数据逻辑隔离能力的实现,就得益于空间域中的工作空间对象、项目对象和项目成员对象;又如,要实现一个去中心化的 DAG 任务调度中间层及调度实例化,则需要利用任务域中的作业对象、任务对象和实例对象。
基于全新的架构,DataSimba 以 Simba OS 为核心向下封装多引擎、多依赖、多云、海量多源异构数据等带来的复杂性,并基于统一的平台,向上(应用层)以 API 的方式提供标准能力,帮助用户简化数据模型/应用的研发过程。
伴随架构升级,整体后端服务资源消耗更少、分配更合理,一套新环境所需的最低服务资源也进一步得到削减。
为什么要升级架构?
越来越多企业客户正在走向数字化深水区,数据模型、数据应用建设的需求也越来越高频。DT 部门需要从原本“接需求”的角色向“平台”角色转型,向各个组织单元提供数据能力,适应不同业务对数据使用的要求。
如果不解耦底层建设与数据业务、抽象底层能力,不仅难以快速响应高频的需求,重复造轮子,出现烟囱式建设,数据系统也会伴随企业使用而不断“加重”,扩展能力和技术升级受限。
因此奇点云基于对数据全链路各环节的理解,及过去多年实践的几百个项目,抽象出了 7 个域共 32 个对象。详尽准确的对象加上对象之间的关联关系,构成了 Simba OS。Simba OS 以简单、标准的 RESTful API 对外提供能力,从而解耦复杂的底层体系与多变的上层业务,来应对不同环境、不同数据业务场景的需求。
地雷介绍,对象的属性和行为可以被继承、更新、扩展及复用。每当需要支持一种新的数据业务场景,DataSimba 的用户都可以像拼乐高积木一样,基于 Simba OS 快速搭建数据模型/应用,而规避底层重复建设、定义不一致、大数据引擎及 IaaS 对接难度高等问题。
“其实,我们的指标工厂 SimbaMetric、标签工厂 SimbaTag、数据安全引擎 DataBlack 就是基于 Simba OS‘搭建’出来的,与 DataSimba 体系天然打通,且能同步享受 DataSimba 底层所有的能力升级。”
目前,DataSimba R4 系列已在数十家企业级客户得到使用,其中不乏客户数据团队基于 Simba OS 自建数据应用的案例。
期待成为您的理想选择!
版权声明: 本文为 InfoQ 作者【奇点云】的原创文章。
原文链接:【http://xie.infoq.cn/article/c4e40118447e69c341991f287】。未经作者许可,禁止转载。
评论