从市场需求目标看数据分析演进方向
关于大数据业务的市场需求变化
日前,工业和信息化部发布《“十四五”大数据产业发展规划》,提出到 2025 年,我国大数据产业测算规模突破 3 万亿元,并强调坚持数据要素观,以释放数据要素价值为导向,从国家政策层面为推动大数据产业高质量发展提供指导。
作为领先的云服务厂商,华为云在为客户提供大数据等技术时发现,用户对数据分析平台的需求有了新的变化,诸如“算法以及机器学习工程师花费了很多的时间在特征处理和数据预处理上,期望数据和 AI 作业开发编排能够有机结合在一起,进行作业流的编排衔接和数据版本控制”、“市场热点实时在变,搜索推荐模型每天重新训练,AI 开发者需要将机器学习算子作为数据开发的一个节点统一编排训练”、“AI 和数据需要高速流转,达到低时延实时推理,支持分析的时效性”、“AI 开发者在开发和优化机器学习模型时,无法直接从数据湖中 1000 多个制程参数,灵活快速挑选适合的字段进行建模,必须配备懂大数据技术和制造业务的数据工程师来帮忙准备优质的数据”等。
同时,作为数据分析平台的需求方(华为流程 IT 和消费者的大数据已全面上云),华为数据治理在实现数据实时可现(例如通过报表描述发生什么)的基础上,亟需进入下个阶段,达到诊断预警(例如提前感知业务问题,自动预警风险)和智能决策(例如分析问题根因,推荐方案),以应对日益复杂的内外部环境,提升企业的韧性。
出现上述变化的本质原因是:数据价值的充分发挥需要 AI 的加持,而 AI 模型的精度依赖大量高质量的数据,这两者的技术需要有机结合。
数据分析平台演进探索
政企面向未来数字化、智能化转型升级,需要以云原生的思维构建数智融合的数据分析平台架构,把原本散落在各个部门和组织的数据统一汇聚到数据湖中,省去开发者关注各种底层的琐碎文件管理,以及大量、复杂的分析引擎、AI 引擎和管理运维工作,支持开发者在集成的开发平台上,便捷地使用最新的算法模型挖掘各种数据的潜在价值。概括来说,未来演进要满足以下三个目标:
第一,降低成本。用云原生技术降低存储和处理大规模数据的成本,减少运维开销。
平台基础设施和能力的全面云原生化、轻量化、Serverless,是云原生的演进形态。Serverless 技术本身会从专用走向通用:支持有状态、程序能够自动并行、可以在多云执行、高效利用云原生的计算和存储,能够让所有的应用都可以基于通用 Serverless 开发。
图表 1 Serverless 发展从专门到通用
存算分离大幅降低了数据的长期持有成本,提升了扩缩容的弹性,但是被拉远的计算服务层和存储服务层间的“数据墙”会由此引发性能损耗。因此,需要基于“内存中心架构”推动公有云大数据架构演进,在保持成本和弹性优势的同时,减少数据搬运/拷贝工作、提升性能和故障解耦能力,即 CPU 和内存的故障不相互影响的能力。
图表 2 云原生共享内存
第二,提升价值。融合机器学习技术,让用户可以从数据中回答更多的问题、做更好的决策。
首先,要确保企业基于唯一的事实来源进行分析,通过对大数据、数仓、AI 等各种分析引擎对元数据的统一管理,解决传统数据分析和 AI 模型之间“数据搬家”的问题,实现数据在不同引擎间的自由流动,以及权限的细粒度管理和版本管理,打通大数据分析和 AI 模型引擎,基于一份数据进行不同的分析,避免不同团队基于不同数据分析造成结果的不一致,提升数据驱动决策的准确性和可信性。(详细内容请参考《云原生2022.02期刊》的“数智融合的统一元数据” )。
其次,要让数据分析师可以便捷地进行模型、特征训练,极大释放数据的潜在价值,让 DataOps 和 MLOps 互通,像管理代码一样管理数据,实现数据与 AI 开发高效无缝互通。
图表 3 某互联网客户 DataOps & MLOps 实践
第三,降低门槛。基于 SaaS、low-code/no-code 等技术,让人人都可以完成数据分析任务。
大数据产业仍存在使用门槛高、碎片化等技术瓶颈约束。在企业的转型升级过程中,业界已经有非常领先,而且成熟的企业通用和行业通用 SaaS 服务,这些软件都是先行者经过多年研发积累出来的智力资产,重新开始自研很难在短时间内达到业界先进的水平。所以,如果所需技术能力在业界已经有成熟服务支撑,那么在成本可接受的情况下,应该考虑优先引入,通过先进技术构筑主干平台。那么在架构设计中,需要将能力服务化、技术组件化,通过分层解耦和复用,像搭积木一样,即插即用,促进敏捷交付,并降低长期开发与运维成本。
数据生命周期长,每个步骤都涉及各种技术分支,而且还在不断的变化演进中。需要数据分析厂商,提供低(无)代码的集成开发平台,为使用者屏蔽底层技术,可以基于一套平台完成数据分析的全流程。
图表 4 集成开发平台
以上是华为对数据分析平台演进的一些想法和探索,其出发点是从根本上遵循大数据的自然特性和发展规律,整合数据全生命周期的先进技术,降低大数据使用成本,充分激发数据要素价值潜能。
年度大促,30 天免费试用
本次华为云 618 年中大促活动,华为云大数据推出了诚意满满的专项折扣。云搜索服务 CSS、数据湖治理中心 DGC、数据湖探索服务 DLI 等热销规格可享包月 7 折、包年 6 折;云原生数据湖服务 MRS、数据仓库服务 GaussDB(DWS)包月 6 折、包年 5 折。
不仅如此,云原生数据湖服务 MRS、云搜索服务 CSS 、数据湖治理中心 DGC 、数据湖探索服务 DLI 等产品还可免费试用 30 天;更有数据查询加速、大数据 BI 、大数据搬迁、流批一体数据治理等热门大数据解决方案等你来抢购!
登录华为云官网:https://activity.huaweicloud.com/bigdata.html,以超值低价玩转大数据!
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/6e3605d8557bc3f16b0c67d6d】。文章转载请联系作者。
评论