告别传统人肉运维,实现 360°可观测!奇点云数据存算引擎 DataKun R2.0 发布
近日,奇点云的数据云全系产品发布新一季更新。本文着重分享数据存算引擎 DataKun、数据安全引擎 DataBlack、指标工厂 SimbaMetric、标签工厂 SimbaTag 的最新进展。
摘要:
数据存算引擎 DataKun R2.0 发布,在安全稳定、智能运维、自主可控等层面均有优化,实现 360°可观测。
数据安全引擎 DataBlack R2.0 发布,成为独立版本,支持全域数据安全,内置开箱即用的行业模板,更有“冠军算法”加持。
SimbaMetric(指标工厂)、SimbaTag(标签工厂)成为独立版本,可搭载于企业现有数据平台之上,为标签管理、指标管理提效。
DataKun R2.0
智能运维,自主可控
数据存算引擎 DataKun,提供企业级的大数据集群智能运维能力。延续“安全稳定”、“智能运维”、“云原生”、“自主可控”四大特性,DataKun R2.0 持续优化进阶:
360°可观测,告别传统人肉运维
围绕大数据运维全生命周期,DataKun 从系统层、服务层、业务层实现 360°可观测,并通过智能运维模型,自动化监测、分析和优化系统行为,改变了传统“人肉运维”的方式。
R2.0 相关升级主要体现在以下三个方面:
1. “健康检查”
DataKun“健康检查”功能,通过一系列检查及验证,帮助运维工程师及时发现常见的配置问题,更新系统参数,减少由于错误配置引起的潜在故障和性能问题。
本次更新完善了检查与更新 NTP 的设置,以确保时间同步;完善了检查与优化磁盘的设置,以确保存储性能更优。
2. “Service Advisor”
“Service Advisor”(服务顾问)功能,旨在通过分析集群组件的配置和状态,检查可能存在的问题,并提供优化建议。例如,按照集群规模,动态推荐各组件的 CPU 和内存值,帮助用户改善集群的性能和资源利用率,解决 Container 并发度不足导致任务运行排队严重、效率太低等问题。
本次更新中,Service Advisor 基于过往服务客户的最佳实践,优化了 HDFS、Ranger、HBase、ClickHouse 等组件的配置推荐算法。
3. “集群监控”
“集群监控”功能相当于大数据集群的“天眼”。DataKun R2.0 迭代了基础监控数据指标体系,建设了完善的监控看板与易用的诊断工具,覆盖系统、服务、业务三个层面,帮助及时发现硬件故障、资源瓶颈、任务执行异常等问题。
全量压测,安全稳定
作为数据存算引擎,DataKun 需确保长期运行过程中,始终具备高可用、高性能,且满足安全、稳定、合规的要求。
1. 核心组件全量压测,充分保障稳定
本轮更新,DataKun 的核心组件完成全量压测,包括 YARN、HDFS、Hive、Spark 等在内的所有核心组件稳定性及性能均得到了充分验证。
结合压测结果数据,我们进一步对组件进行配置调优,提升了集群的整体吞吐能力。
2. 持续关注开源组件安全,第一时间修复相关漏洞
DataKun 持续关注开源社区动态,及时更新并进行专业的兼容性验证测试,以规避因开源组件漏洞而造成的拒绝服务攻击、远程代码执行及安全绕过等问题。
本轮迭代,截至 2023 年 6 月 Hadoop 和 Hive 中发现的高危漏洞,均已在 DataKun R2.0 修复完毕。
自主可控,增加国内研发软硬件环境适配
DataKun 持续适配国内研发软硬件环境,R2.0 现已支持兼容 KunPeng(ARM 架构)Kylin V10、X86 Kylin V10。
此外,DataKun R2.0 提供更成熟、标准化的配套迁移服务,支持从 CDH 及云上 EMR 迁移至 DataKun,进一步保障企业客户自主可控。
DataBlack R2.0
独立版本,支持全域数据安全
数据安全引擎 DataBlack 以数据为中心,具备敏感数据自动化发现、数据脱敏和加密、权限管理、风险识别和监控、数据审计等五大核心功能,助力客户完成企业级的数据全生命周期安全管控及保护。
DataBlack R2.0 带来以下关键更新:
独立版本,支持全域全场景数据安全
自 R2.0 起,DataBlack 正式作为独立产品单独售卖(而不再只作为数据云平台 DataSimba 的增购项)。
“自立门户”的 DataBlack 不仅能保障数据云平台 DataSimba、数据存算引擎 DataKun 内的数据资产安全,也支持对接分析云(例如 CDP、UBA)等多类数据应用产品,提供一站式的数据安全管理能力,帮助企业高效满足《个人信息保护法》《数据安全法》《网络安全法》等安全合规要求。
DataBlack R2.0 产品架构升级,独立支持全域数据安全
以增长分析(UBA)为例,利用 DataBlack 完成敏感数据识别后,企业用户可以对 UBA 内 Event、User、Item 三张表中存在安全风险的敏感信息进行统一管理,也可以下载风险明细,满足审计要求。
面对数据应用日益多样而安全合规缺失的现状,企业的数据安全管理部门可以借助 DataBlack,对全域数据采取一致的数据安全策略与流程应用,给用户授予对应应用的安全角色、配置安全能力,从而真正提高数据安全管控效率。
内置行业模板,开箱即用
根据各行业规范要求和业务特性,DataBlack R2.0 内置了数据安全分类分级行业模版,开箱即用,帮助企业高效管理敏感数据,自动生成分级分类全景图。
目前,内置模板包括以下三类:
1. 分类分级标准模板:基于《个人信息保护法》等国家安全法律法规,内置 37 类敏感数据类别及对应的敏感级别,帮助企业快速完成敏感数据分类、查询状态。
2. 金融数据安全分类分级模板:依据《金融数据安全数据安全分级指南》(JR/T 0197—2020),侧重个人金融信息保护和金融重要数据保护。
3. 智联网汽车数据分类分级模板:依据“数据安全推进计划”出台的《智能网联汽车数据分类分级指南》,侧重智能网联汽车的个人敏感信息和汽车重要数据保护。
“冠军算法”加持智能安全
曾斩获全国数据安全赛事冠军的“异常攻击事件检测模型”现已融入 DataBlack R2.0!
“异常攻击事件检测模型”是一种兼顾“攻击事件分类识别”和“基线行为预测”的多任务深度学习模型,不仅能检测攻击事件发生的时间段、攻击事件类型,还能解析攻击事件的独特表现。
通过该模型所属的“风险智能识别”功能,企业可以监控对应平台内用户的操作行为,自动化检测异常操作,识别离职员工账号违规使用、员工下载敏感数据导致泄露、低权限账号访问敏感重要数据等安全风险问题。
SimbaMetric R2.0
指标管理与开发的效率工具
SimbaMetric(指标工厂)是针对指标统一管理与开发的效率工具,为企业提供一套完整的指标管理与开发体系。
具体而言,SimbaMetric 能全面满足指标的业务需求、技术需求以及管理需求,提供指标从“提出”、“定义”、“设计”、“开发”、“使用”、“修改”到“下线”等全生命周期的管理功能,为经营分析、风险管理、领导决策等提供管理规范、指标统一、数据易用的产品功能保障。
作为 Simba Toolkits(数据服务工具箱)中的一员,SimbaMetric 现已进阶为独立版本,不仅支持搭配数据云平台 DataSimba 增购,也支持单独购买,满足更多客户所需。
SimbaMetric R2.0 的能力包括:
1. 严谨的分层分域设计,更清晰。在指标开发的过程中,SimbaMetric 支持用户严格遵循数仓分层分域的架构设计,让数据结构清晰化、条理化,减少指标的重复开发。
2. 指标建模的方式让指标业务更“落地”。SimbaMetric 以“统计粒度+派生指标”形成逻辑表的业务维度和度量字段,使得维度建模的过程与业务紧密结合。例如,渠道维度的订单分析数据,应围绕“渠道”的统计粒度和“订单”相关的派生指标进行开发。
3. 管理数据标准,更强调应用数据标准。在数据治理的场景中,SimbaMetric 基于数据标准场景实现了对数据规范的管理,如标准的定义、标准值的定义和条件约束,并通过这套规范执行、检测、维护数据的标准化。
4. 丰富的行业模板库,一键引用。我们将众多行业的实践经验沉淀至高级版模板库功能中,可以在项目中一键引用行业模板并创建,包括但不限于泛零售行业的词根、数据标准、主题域、业务过程等等多个模板。
SimbaTag R2.0
标签开发与管理分析的效率工具
与 SimbaMetric 同期“独立”的,还有 SimbaTag(标签工厂)。
SimbaTag 是面向业务标签开发、管理、分析的生产力工具型应用。
聚焦大数据治理环节中高频的标签开发场景,SimbaTag 提炼 OEET 方法论(Object 对象-Entity 实体-Event 事件-Tag 标签),可完成标签体系从业务定义到数据模型构建、标签开发的落地全过程,并针对形成的标签资产进行统一的资产管理,提供数据服务 API 及数据订阅服务。
下游业务系统(例如 CDP,客户数据平台)可通过调用 SimbaTag 提供的 Open API 接口,灵活调整标签开发模板,迭代衍生标签,沉淀出新的标签资产,形成“标签生产-管理-服务-回流”的标签运营生态。
与此前的版本相比,SimbaTag R2.0 有以下产品优势:
操作配置可视化:可拖拽式构建对象宽表模型,并将字段批量配置为对象属性;
输出表结构稳定:标签输出表采用高表结构,便于下游系统查询及调用;
标签管理接口开放:支持下游系统调用 Open API 接口进行标签克隆,快速生成衍生标签。
写在最后:为什么选择让它们“自立门户”?
继数据存算引擎 DataKun 后,数据安全引擎 DataBlack、指标工厂 SimbaMetric、标签工厂 SimbaTag 陆续升级为独立版本。
也就是说,上述产品可以单独售卖,而不再只作为数据云平台 DataSimba 的增购项。已有数仓/数据平台的企业可以根据自身的技术栈规划,按需选购。
相较搭配购买,单独购买独立版本往往更为“轻量”,组合更为灵活。而实践过后,有许多企业会发现各类数据产品工具自成一套,组装时不得不重复建设,架构变得冗杂。
因此,与市面上产品不同的是,上述产品的独立版本均内置了 Simba OS(数据云操作系统内核),负责对 DataBlack、SimbaMetric、SimbaTag 等产品提供数据的存算、权限体系等标准能力。
Simba OS 采用对象体系的设计,因此上述产品的独立版本均可继承对象的属性和行为,例如继承“支持 60 多种数据源”、“具备完善的监控告警运维能力”等。在保持轻量、灵活等优势的同时,无需为多引擎、多依赖、多云、海量多源异构数据等带来的复杂性以及多产品体系打通等问题操心。
期待成为您的理想选择!
版权声明: 本文为 InfoQ 作者【奇点云】的原创文章。
原文链接:【http://xie.infoq.cn/article/824a0c123018c00cea251fe5c】。未经作者许可,禁止转载。
评论