奇点云 DataSimba R4.5 发布关键更新,做到“可大可小可观测”
在近日的 StartDT Day 数智科技大会上,奇点云揭晓了数据云平台 DataSimba R4.5 的关键更新。
100%容器化、可大可小可观测、多租户安全…StartDT 合伙人、CTO 地雷介绍,以 DataSimba R4.5 为代表,数据云全系产品都带来了许多新功能,其中部分功能已伴随版本发布在客户现场完成落地。“我们最高兴的不是攻下了业内公认的技术难关,而是这些攻关都是客户真正需要的,也得到了客户实践后的认可。”
#1 多租户体系发布
“分级多域”再升级
多租户安全体系,核心解决安全隔离与计算资源的调配问题。
具体而言,各租户间设置数据权限隔离,管控敏感数据访问,即便在同一个工作空间(Workspace),各部门的核心数据也互不共享;多团队间实现存算资源隔离,避免出现资源抢占、影响作业进度的情况。
地雷介绍,DataSimba 掌握“跨平台”的核心技术,企业可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个工作空间进行管理。而此次多租户体系发布则是 DataSimba“分级多域”能力的再升级,主要面向大型集团内多部门、多团队共享使用的场景,进一步为数据生产提效,保障数据安全。
*在数据云平台初步建成、数据孤岛基本打通后,企业的各部门/BU/子公司需要在平台上建立自己的数据生产应用——这些部门就可以设为“租户”。
如何理解全新升级的“分级多域”?如上图所示:
1. 客户可以有若干工作空间,比如核心数据存在自有 IDC 机房,主要业务数据存在华为云,海外的经营数据存在海外当地的 AWS。这些数据通过工作空间进行隔离——满足企业多云战略,也符合所在地域的数据安全与审计要求;同时,通过一套数据云平台 DataSimba,能跨云跨平台地完成统一的租户与账户管理、安全策略与审计,大大提升集团管控效率。
2. 在一个工作空间下,租户可以建立自己的项目(Project),并进一步建立项目内的角色,进行权限划分,甚至能具体到表的行级、列级。
3. 权限管控体系有序而灵活,多个租户都可以在一个工作空间下建立项目,一个租户也可以在不同的工作空间建立不同的项目。而如果需要(例如上市公司的财务部门),一个租户也可以独占一个工作空间。
4. 在没有授权的情况下,不同租户、不同项目之间的数据均不可互相查看和调用。
此外,多租户体系不仅能实现更精细化的数据权限隔离,还解决了不同项目之间存算资源隔离的问题——说白话,每个租户、项目可以设定各自的存算资源,租户 A 小小的任务不再需要在租户 B 超大规模的任务后排队;如果有租户一不小心耗尽了自己的资源,也不会干扰其他租户的生产作业。
#2 100%容器化
可大可小可扩展
奇点云对数据云的产品技术架构进行了改造,使其具备可扩展能力,可大可小,满足不同企业的不同量级需求:
可大,指支撑数据量达 500PB 级,日调度总量达千万级,支持 1.5 亿运营会员数,埋点事件数超千亿,稳定性达 99.95%;
可小,则极致轻量,仅需 0.5 天时间完成部署,依旧能支撑 TB 级数据量、亿级埋点事件、百万级运营会员数,运维简单,性能依旧优越。
此外,“数据云+分析云”全家桶所需的最小部署资源,相较半年前也已降低 30%。
地雷谈到,本轮改造出于两方面原因:
其一,奇点云与 GrowingIO 并购重组后,服务客户的范围明显扩大,数据的量级、对数据基础设施的需求都有所不同。“可大可小可扩展”能更好地支撑不同客户多元化的需求。
其二,数据基础设施本身架构复杂,研发团队庞大,难免出现“不够优雅”的情况,改造后平台减少冗余,更稳定有序,也有利于上层应用拓展创新。
伴随数字化进程深入,越来越多企业已经走过“单点增长”的阶段,而期望打通全域数据、获得全景洞察,进一步挖掘数据价值。与此同时,也开始面临数据孤岛、数据资产难沉淀难管理、缺少专业数据运维团队等问题。
轻量级的数据云发布,意味着资源、技术等使用门槛得到降低,有更多企业能用更少的成本享受依旧优越的性能,试水“数据规模化高效率驱动增长”。
对于大型集团企业,数据云则以工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。
数据云实现“可大可小”,得益于架构的重塑升级,也与容器化进展密切相关。
容器化是云原生领域的一项经典要素,它本质上是一种虚拟化技术,一台主机可以虚拟出上千个容器。单个容器的启动时间更快,占用空间更小,可以根据实际应用的大小来弹性分配资源,部署和运维也更简单。
地雷透露,数据云平台 DataSimba 早在 2020 年就已实现容器化。而今年,数据云全系产品均完成容器化。“要真正做到 100%容器化,数据存算引擎 DataKun 是硬骨头。”地雷表示,“业内熟知,有状态的服务做容器化很难。数据存算引擎不仅仅是典型的有状态服务,而且数据持久化要求高、非常复杂。”
100%容器化有效降低了环境维护成本及工具链的开发和学习成本,数据云的部署效率与维护便捷性亦得到进一步提升;支持作业智能调度,能帮助企业找到任务运行及资源利用的最优性价比方式;同时,资源进一步得到有效隔离。
#3 具备可观测性
让数据辅助运维
“我依赖了你的表,任务真的有依赖吗?配对了吗?”“今天作业变更有潜在风险,下个批次如何保障成功?”“哪个服务模块出现异常,根本原因何在?”
数据云的可观测性,就是为了解决上述“不可见”的问题。
Gartner 在“2023 年十大战略技术趋势”中,这样描述应用可观测性(Applied Observability):在任何相关方采取任何类型的行动时,都会产生包含了数字化特征的可观测数据,如日志、痕迹、API 调用、停留时间、下载和文件传输等。应用可观测性以一种高度统筹和整合的方式,将这些可观测的特征数据进行反馈,创造出一个决策循环,从而提高组织决策的有效性。
简而言之,可观测性之于数据云,如同仪表盘之于汽车。
具备可观测性,也就意味着平台内部状态并非黑箱,企业能通过关键指标、标签来监控其状态,对数据云内部的数据作业、云资源等有明确认知,通过 APM(应用性能监控)或 AIOps(智能自动化运维)辅助平台运维,降低复杂血缘关系下的作业运维难度,提升运维效率。
“DataSimba 的元仓在性能优化、数据治理、数据安全、智能运维等数据域,提供上百个高价值指标。这些指标总结自我们数百个客户项目的运维经验——其中当然包括解决最让客户头疼的作业依赖和变更问题,经实践证明非常有效。”地雷笑谈,“最重要的,当平台更可知可控,我们客户的运维团队睡眠质量也随之得到改善。”
#4 流批图架构
练就全域 One-ID“多快好省”
严格来说,流批图一体并不是数据云平台 DataSimba 的新功能,而是技术架构方案的创新——为满足高质量全域 One-ID 的需求而生。
要做到全域用户精细化运营,实现全域 One-ID 是前提:打通整合多源业务数据,使用 ID-Mapping 等技术关联各业务系统的数据,在安全合规的前提下生成唯一用户标识,持续丰富标签、扩充数据,赋能全域运营和营销场景。
然而,真正实践过的企业也一定会遇到这三大挑战:
· 计算性能的挑战:企业数据体量大,渠道多,ID 类型多,还需要考虑存量和增量数据的场景,对计算性能的考验不可小觑。部分大型企业有亿级用户数据、数百个渠道,要求更高。
· 复杂计算场景的挑战:如果 ID 类型多、ID 关系复杂,对传统的规则计算是极大挑战;如果各渠道数据质量参差不齐,则还需要考虑如何设定 ID 关系权重与数据置信度。
· 验证结果的挑战:传统规则计算的结果准确性难以验证,而数据赋能业务决策最基础的要求就是准确。
为此,奇点云综合考量时效性、可解释性、业务扩展性、准确度等 7 个维度,基于 DataSimba 的能力提出了“流批图一体架构”——DataSimba 的 Task、Job 双层调度体系,全面支持离线、实时及图计算。
“这并不是在‘流批一体’上硬造新词,而是经过我们多轮方案和实践对比,最后发现这样的架构落地最可靠,在计算性能、复杂场景计算及可解释性上均具备优势,最能满足企业的 One-ID 需求。”
地雷介绍,基于业内独家的流批图一体技术架构,不仅能支撑分析云实现全域 One-ID,还有显著的效果加成:
“多”,支持全渠道海量用户数据计算,压缩比最大可达 30%+;
“快”,数据处理大幅提效,相较常规方式约能提速 5 倍;
“好”,处理结果准确度高,测试用例通过率达 100%,One-ID 关联覆盖率>99.9%;
“省”,跨渠道关联更多用户,节约重复投放成本。
客户可以根据自身需求,在数据实时性、计算成本等要素中取舍,满足多元场景,获得更具性价比的体验。
目前,DataSimba 已将图计算引擎集成为算法组件之一。客户可以依托 DataSimba 一站式地完成数据集成、交互式任务开发、任务调度、任务运维、数据治理及数据安全等工作。应用层还提供 One-ID 与数据安全异常识别的算法包,帮助数据团队更高效地支撑前台业务。
#5 “零信任”架构
守护数据资产安全
DataBlack 是数据云内嵌的数据安全引擎,脱胎于企业合规审计、合法使用、安全分享等需求。
遵循以数据为中心的安全架构设计理念,DataBlack 通过智能分级分类、数据脱敏和加密、风险识别与告警、权限管控、全面审计等核心技术,支撑企业完成全链路、全场景、全智能的数据全生命周期安全管控。
地雷表示,自今年 5 月 20 日正式发布商业化版本以来,DataBlack 就受到了市场热烈反馈,现已在许多客户场景落地投产,并沉淀出了泛零售、金融、制造等行业的解决方案与标杆案例。
本次 StartDT Day,DataBlack 公开了新能力:
· 全面满足“零信任”要求,对访问和使用持续进行动态识别验证,自动化、智能化、全场景识别风险,确保数据是在合适的时机、恰当的需求下被有权限的用户合理地使用;
· 对数据资产的传输、计算、存储、服务和架构进行了全方位安全加固;
· 基于日志审计分析与多源异构数据分析,依托机器学习与 AI 能力,达到更精准的风险识别效果。
“DataBlack 之所以是数据云体系的重要组成部分,因为它不仅仅看重‘保护式安全’。”地雷谈到,“我们不仅要为企业数据资产的安全护航,也致力于为数据流动创造可靠、可信、可控的空间,以便数据真正发挥价值。”
当然,企业级的数据安全合规并不能只靠部署产品一键搞定。奇点云提供一站式的“咨询+产品+实施服务”,帮助客户应对数据安全的种种挑战。
从众多新功能、新技术、新架构中可以看到,跨平台、云原生、自主可控、数据安全依然是数据云迭代的主轴。
这 14 字的技术战略,与奇点云对前沿数据技术的掌握、客户需求的洞察密切相关,更包含着我们对企业级数据基础设施的理解:要持续提升平台的可用性、易用性、稳定性和可扩展性,优化客户的数据团队体验;加强敏捷迭代能力,帮助上层应用拓展创新,加快用数据创造价值的速度。
其本质出发点,是坚持独立第三方立场,与客户站在一起——攻关硬核技术,同时杜绝技术自嗨,方使奇点云真正成为“客户的数据云”。
期待成为你的理想选择!
评论