星环云原生数据湖,为企业精准决策提供全方位技术支撑
随着数据价值由数据统一化逐渐到数据生态化演进,企业对数据平台的需求越来越高,许多企业面临内部数据孤岛等现状,需要全集团统一的、可共享的数据平台,来推进建设统一的数据平台,构建数据驱动业务的数字化转型战略,为企业管理和决策提供数据基础与分析能力保障,助力企业发展。
数据湖作为支撑企业数字化转型的数据底座,能够为企业提供数据驱动、精准决策等全方位技术支撑,因此企业级数据湖的建设,是数据价值逐渐释放的基础,是企业数字化战略转型的关键。
企业建设数据湖一个重要的目标是,面向企业各个事业部、子公司,建设统一数据湖,用来统一整合企业内、外部各类业务系统数据,保障企业数据全面性和唯一性,以及统一管理内外部数据资产,形成企业统一数据治理标准及规范,加强数据安全管控及数据安全。
基于 TDC 的数据湖整体方案
一个完整的数据湖解决方案需要建立在数据接入、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等一些列技术之上。市场上的数据湖解决方案多数只具备部分能力,给企业建设数据湖带来障碍。
基于星环科技数据云平台 Transwarp Data Cloud(TDC)、星环大数据开发工具 Transwarp Data Studio (TDS)等产品的星环数据湖解决方案,能够一站式解决企业从建湖到管湖全部过程,为企业管理和决策提供数据基础与分析能力保障,助力企业发展。
在数据入湖阶段,星环科技大数据整合工具 Transporter 负责将分散于各个地方、各种平台上的各种格式的数据同步或集成到大数据平台上。而星环大数据基础平台 Transwarp Data Hub (TDH )内置 8 种独立的存储引擎,支持业界主流的 10 种存储模型,解决数据湖需要的结构化、非结构化、半结构化数据存储能力。在数据治理、元数据、数据质量、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。
基于 TDC 建设数据湖的基础架构设计
TDC 数据云平台的数据湖基础架构,核心理念是以多租户的形式,承载整整个集团的数据业务。
包括集团级中心数据湖、主题库和数据集市,以及事业部、子公司等独立租户,同时可为任何组织部门按需提供数据沙箱,基于集团数据湖数据进行二次数据探索和分析。
TDC 数据湖解决方案在银行的最佳实践
以银行客户为例,某银行需要部署一个数据湖,并需要将公共的数据放在数据湖租户中,用数据湖来承载集团的全部数据,并由集团 IT 部统一管理。允许各子公司、事业部、各个部门有条件使用该数据。
同时,因为银行数据湖业务负载有潮汐差异性,为了更好的响应业务的处理要求,在业务繁忙时,希望能自动调整配置,以响应业务负载,当业务负载下降时,能及时减少资源配置,以将资源给其它租户或应用使用,这其中涉及计算单元的自动弹性伸缩。此外,该银行的数据量每天会有一定量的增加,需要定时扩容。
根据上述背景,我们可以将客户的关键需求总结为:
规划多租户,由独立的租户承建数据湖,保证数据湖的隔离性;配置数据湖的自动弹性扩展能力;数据湖计量,为了方便对每个租户进行成本管理或企业内部计算,需要对各个租户使用的资源进行计量和计费。
星环科技数据云平台 TDC 支持不同的操作系统和 CPU 架构,可以采用图形化的方式部署和配置异构集群。在 TDC 之上,该银行部署数据湖,我们提供了一套图形化向导方式,一步一步帮助银行完成各项选择和配置。
针对该银行的数据湖需求,基于星环数据云平台 TDC 做了如下工作:
为该银行创建两个租户,一个为存放公共数据的数据湖租户 datalake,一个为使用数据湖数据的租户 marketing;
将租户 datalake 设置为共享租户;
开启租户 datalake 的 TDFS 组件的数据共享;
在租户下 datalake 下部署一个实例 datalake_1,并开启组件 TDFS 的共享;
开启 datalake_1 实例的弹性伸缩功能;
在租户 marketing 下部署一个实例 marketing_1,引用租户 datalake 的 TDFS 组件;
数据湖与多个数据租户是一种协同分层解决方案。TDC 的租户是指一个包括资源、应用和数据的隔离,租户之间相互独立,完全隔离,同时能够通过安全可控和共享模块的配置,实现资源、数据、应用的跨租户共享。通过共享租户在数据湖中实现数据、平台、工具和模型的统一,通过隔离实现每个部署空间的独立性、安全性。
数据湖租户设置为共享租户,通过将数据存储 TDFS 组件开放并共享出来。需要共享的数据、工具、模型都放在一个租户中,设为共享租户,其他租户可以查看或使用该租户共享出来的数据。数据湖的多租户规划即为将数据湖租户设置为共享租户,其他租户建设自己的数据仓库时可查看并选择该共享组件,这样其他租户即可依赖数据湖租户共享出来的 TDFS,实现数据的共享。
基于星环科技 TDC 建设的数据湖,承载了该银行集团的全部数据,并由集团 IT 部统一管理。允许各子公司、事业部、各个部门有条件使用该数据,实现了数据的集中治理以及安全的共享交换。
目前,星环科技新一代智能数据云平台 Transwarp Data Cloud(TDC)已经在众多行业有成熟的全方位解决方案落地,满足了各种数据处理场景的需求,实现了企业数据与应用的生态化建设。未来星环将在数据云领域持续深耕,助力企业不断提升大数据能力,引领企业数字化转型升级浪潮。
评论