企业大数据平台建设七大场景,看这本指南就够了
企业在大数据基建过程中,会遇到太多问题。
资产治理、数据服务、技术选型、安全合规、稳定可用…解决完一个,又冒出另一个。
与此同时,企业对数据基建的要求也越来越高,既要快速敏捷地响应业务需求,又要尽可能控制存算成本、提高利用率。
能否体系化地应对这些难题,进一步,能否在挑战来临前,就预先做好准备?
从奇点云过去 600+客户的数据云建设实践中,我们发现,数据基建的挑战并非“随机刷怪”,而是有章可循。其中,以下 7 大场景最为常见,也最为典型:
传统数仓升级;数据技术栈优化;数据中台建设;数据资产治理;集团数据云服务;自主可控替代;数据安全合规。
我们将上述 7 大场景的常见痛点、关键问题及落地实践必须关注的要点,写入了《数据云场景指南》,伴您在数据基建进阶路上“升级打怪”。
我们推荐这样使用《数据云场景指南》:
从企业当下遇到的痛点或关注的问题出发,在索引页找到目前所处的阶段,进而针对性了解该场景应当关注的要点与解法。
需要注意的是,挑战不会一成不变。企业的数据基建既不能“一蹴而就”,也无法“一劳永逸”。
因此,这本“攻略”不仅介绍了多个问题的解法,也提供体系化的思路,以便为下个阶段做好准备,满足进阶的数据应用与未来的业务规划需要。
篇幅有限,本文仅择取每个场景的片段一览,下载指南即可查阅详情。
场景一:传统数仓升级
以 Teradata、Oracle 等厂商为代表的传统 MPP(大规模并行处理,Massively Parallel Processing)数据仓库,曾在众多大中型企业的数字化转型中发挥重要作用。而伴随用数规模扩大、需求加深,企业对分析时效要求越来越高,数据量越来越庞大,传统数仓在成本、灵活性、开放性均显露出诸多不足。
在该场景,企业需分离 OLTP(On-Line Transaction Processing, 联 机 事 务 处 理)和 OLAP(On-Line Analytical Processing,联机分析处理),并由以 Hadoop 为代表的分布式大数据平台来面向 OLAP 场景。
相较 MPP 数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低、可灵活处理多种类型数据等优势。
场景二:数据技术栈优化
伴随业务发展,数据分析需求日益复杂,数据平台团队开始面临多云部署、多引擎调度等更复杂的底层技术难题。
以多引擎问题为例,目前没有一个 OLAP 数据库引擎能完美适配所有场景(测评详见《OLAP 数据库引擎选型白皮书》),企业需要综合业务需求、性能、维护成本等多种维度进行选型。随之而来的,就是多引擎混合调度问题——在技术架构上,不推荐采用烟囱式建设,而应当同时确保引擎协调性(包括引擎间的任务调度和执行、数据传输和协作等)、数据一致性,以及资源利用最大化。
以下数据场景,往往对多引擎混合调度有高要求:
· 多样化数据源及复杂数据处理:以制造业的实时生产监控为例,该场景数据量庞大,其中包括大量的机械设备传感器数据,因此底层需要离线、实时及时序计算引擎做支撑,针对性处理多样化数据源和不同的计算操作。
· 流批一体:依托多引擎混合调度能力,充分利用流处理引擎、批处理引擎的优势,调度适当的引擎来执行任务,同时确保底层执行逻辑一致性、数据一致性,解决延迟、顺序、资源协调等挑战。
场景三:数据中台建设
数据中台建设或是大数据从业者们最为熟悉的场景。在这个阶段,企业往往已完成业务 IT 化,在许多系统内沉淀了大量数据,但各成“数据孤岛”,导致数据用不起来。
数据中台的核心任务就是打造互联互通的大数据平台,以 One-ID 为核心,通过数据汇集、清洗、指标体系搭建等,沉淀数据资产。在统一的平台基础上,以需求驱动,培养数据应用能力,让数据逐步成为企业决策的核心支持。
该场景下,底层平台还必须关注稳定性,以规避因不可用、不可靠等问题造成的业务损失,确保数据价值持续产出。
场景四:数据资产治理
数据资产治理是每个企业想用好数据都绕不开的环节。我们需要进一步明确的是:
其一,如果没有体系化地进行数据治理,缺少科学方法和架构支持,大数据平台就无法持续高效地支撑业务需要,出现不得不为单一场景定制、计算周期长等各种问题;
其二,即便经过初阶的治理,如果没有形成合理的数据架构和运维体系,随着业务迭代,数据资产管理仍会再次陷入混乱,导致资产无法有效复用。
在该场景,指南不仅介绍了数据治理方法论,也详解了指标、标签、算法模型、数据服务等资产的体系化建设与管理实践,在建立规范的治理流程和标准的资产体系前提下,进一步为上层使用数据资产提供便利。
场景五:集团数据云服务
集团型企业由于多品牌、多业态、多主体等特征,对数据基础设施的能力要求往往更为多元。例如,既要支持子品牌独立发展,又要全集团统一管理;既要集团资源合理利用,又要主体之间安全隔离。
该场景下,企业的数据基础设施必须具备“既隔离又统一”的平台型数据管理能力,从而实现:既能满足各业务单元的隔离需求,又能满足集团全局分析需求;既能支持多云战略,又能支持跨云统一调度;既能保障各系统独立稳定的管理调度,也能统一存算资源,提高资源利用率。
*奇点云数据云平台 DataSimba 提供跨云多域多租户技术方案,支持通过创建新的 Workspace(工作空间),来满足企业业务扩张、快速复制数据生产域、开辟创新业务或安全合规隔离等要求。可查阅《数据云场景指南》,了解独立生产域规划的详细流程。
场景六:自主可控替代
2019 年,CDH 社区版(免费版)宣布停止更新,因此无法再提供特性升级、bug 修复等技术支持,还存在着较多安全漏洞;2022 年,Teradata 宣布将逐步结束在中国的直接运营,并进入中国公司关闭程序。
在政经形势及数据安全合规的双重要求下,寻找稳定可信的国产大数据产品已不仅仅是部分国央企的诉求,有越来越多企业主动考虑采用自主可控的国产替代。
该场景下,企业除了考察大数据产品的国产软硬件互认证、环境适配测评结果,也要求厂商提供平滑迁移的方案,确保“替代”过程安全可控、业务影响最小化。
场景七:数据安全合规
企业作为数据(尤其是用户数据)的收集者,有义务控制滥用和误用数据等风险的发生;作为数据资产的持有者,也应采取必要措施,以预防并阻止违规操作、泄密、攻击等事件,规避对企业数据资产保密性、完整性、可用性的损伤。
与数据资产治理类似,数据安全合规的治理与管理同样需要持续进行。其中,数据安全的分类分级管理规范及实施是核心环节。
此外,指南提供了数据安全管理的 7 大基本原则、6 项必备内容,供企业对照参考。
评论