写点什么

湖仓一体架构下的数据研发及管理

作者:数造万象
  • 2022-11-14
    广东
  • 本文字数:4050 字

    阅读完需:约 13 分钟

湖仓一体架构下的数据研发及管理

随着数字经济的快速发展,数据业务化、数据要素化已成为企业发展新引擎,以云计算、大数据、人工智能等为代表的新技术迅速发展,“得数据者得天下”已成为一种共识。在数字时代,数据无疑是企业发展的基石。企业数字化建设需要有强大的基础数据平台,以支撑业务数字化转型成功落地。数造科技基于 DataOps 理念,打造架构创新、数据生态、相互融合的湖仓一体架构下的数据研发及管理解决方案,赋能企业高质量发展。


数字化转型与现代数据架构发展


01、企业数字化转型中的挑战


数字化转型的核心主要围绕“业务优化”和“业务转型”两个方面,以提高生产力和收入和更好的用户体验、带来新的收入和产品服务、新的商业模式。然而在面对数字化转型过程中,企业通常存在以下几个难题。

  • 缺乏统一的计算、存储平台,开发运维管理成本高,缺乏灵活的交互;

  • 缺乏数据开发与管控统一流程,数据工程难以持续集成、开发;

  • 数据发现、使用难,数据重治轻理,挖掘数据价值难。

对于现代化企业来说,需要面对愈发复杂多元、高频迭代的内外部环境,仅依靠人力难以跟上市场的发展,“数据驱动”成为企业的必然选择。而“数据驱动”并非采购一些数字化工具即可完成的转型。针对具有“变化、挖掘、未知”特性的需求,企业需要建立统一、弹性、智能的数据底座,以“不变应万变”,从而支持数据驱动,让数据释放价值。


02、企业数据底座发展趋势


从数据管理架构的发展来看,湖仓一体技术的发展可分为三个阶段。第一阶段是上世纪 80 年代开始的“数据仓库”阶段,第二阶段是 2011 年伴随着大数据发展而产生的“数据湖”技术,第三阶段就是近年来开始的数据湖与数据仓库的融合趋势,业界称为“湖仓一体”。数据管理架构的革新,是在企业需求的推动下进行的,新兴技术催生新的市场需求,从而导致数据管理架构相应调整。以湖仓一体为例,当下企业海量大数据场景下的实时处理,非结构化数据治理等需求,都是推动数据湖与数据仓库融合的重要动力。


第一阶段:数据仓库(Data Warehouse)

数据仓库的主要功能,是将企业信息化管理系统中联机事务处理所积累的大量数据,通过数据仓库特有的信息存储架构,系统化分析整理,进而支持如决策支持系统、主管资讯系统的创建,帮助决策者快速有效的从大量数据中分析出有价值的信息,以利于后期决策拟定及对外在环境变化的快速回应,帮助其构建商业智能。

随着数据在企业内角色愈发重要,对其分析的要求不断提高,例如,随着数据规模扩大,对数据承载能力(容量、算力)的要求也不断增大,数仓架构的扩展能力面临考验,规模的扩展会面临大量资源的投入,但硬件资源缺乏弹性,会导致高峰时资源不足,低谷时资源闲置浪费问题。


第二阶段:数据湖(Data Lake)

在大数据时代数据量剧增背景下,催生了数据湖技术。数据湖是一个存储企业各种各样原始数据的大型仓库,可供数据存取、处理、分析以及传输,可看作一种大型数据存储库和处理引擎。相比于数据仓库而言,数据湖存储容量更大,数据类型更为丰富,增加了对半结构化数据和非结构化数据的支持,同时对所有数据进行集中式存储。并具有庞大的 PB 级数据存储规模以及计算能力,提供多元化数据信息交叉分析,及大容量高速度的数据管道。

随着智慧运营的深入,数据湖对 SQL 支持偏弱、ACID 特性支持差的缺点也逐渐暴露出来,而企业在数字化转型中的综合性业务对架构的灵活性、功能完整性要求不断提高,企业统一数据底座工具也在不断优化升级以适应业务的发展需求。


第三阶段:湖仓一体(Data Lakehouse)

随着云和大数据技术的普及和演变,现代数据架构从存储形态到消费形态都在发生变化,从传统分散架构向湖仓一体架构方向发展。主要体现在:

  • 数据结构从结构化到多样,数据存储从湖仓分散到湖仓集统一;

  • 从离线计算到流批一体,从单一云架构到混合云架构;

  • 从事后治理到全流程治理,数据工程从 ETL 到基于 DataOps 的 ELT;

  • 数据消费从被动数据分析到主动探索,数据角色从数据开发到业务分析、数据管家及数据科学家的转变。

如今,对数据价值的深度挖掘成了行业客户普遍关注的热点,所以能否把数据仓库和数据湖的价值进行叠加,让数据流动起来,减少重复建设呢?比如,让“数仓”在进行数据分析的时候,可以直接访问数据湖里的数据。再比如,让数据湖在架构设计上,就“原生”支持数仓能力。数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业在业务应用过程中 2 个关键的场景也在驱动数据湖和数据仓库在技术演进上走向融合。

2020 年,大数据 DataBricks 公司首次提出了湖仓一体(Data Lakehouse)概念,希望将数据湖和数据仓库技术合而为一。湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。


湖仓一体与数据仓库、数据湖的区别


03、湖仓一体架构成为下一站灯塔


面对企业海量大数据场景下的联机交易、非结构化数据治理的需求,以及数据仓库/数据湖架构的局限,湖仓一体架构下兼备数据湖的灵活性和数据仓库的成长性,并融合了两种架构的优势,底层多套存储系统并存且互相数据共享,形成了资源池,上层各引擎可以通过一体的封装接口访问,实现了联机交易和联机分析的同时支持。

客户如何同时享受数据湖的灵活性和云数据仓库的成长性?使用数据湖做集中式的原始数据存储,发挥数据湖的灵活和开放优势。又通过湖仓一体技术将面向生产的高频数据和任务,无缝调度到数据仓库中,以得到更好的性能和成本,以及后续一系列面向生产的数据治理和优化,最终让企业在成本和效率之间找到最佳平衡。


湖仓一体平台建设方案


数造科技结合多年的数据开发管理和数仓实施经验,综合传统数据仓库和现代数据湖两种技术优势,推出了仓湖一体的数据研发及管理解决方案。该建设方案涵盖统一的数据湖仓底座、数据发现、数据研发、数据治理、持续发布等数据全链路管理,综合数据湖、数据仓库两种技术演进方向,为企业用户提供云原生仓湖一体解决方案,构建企业统一的数据底座和开发管控一体化中心。

湖仓一体下的数据研发及管理框架


01、统一的数据开发与管控流程

通过建立统一的数据湖仓一体底座,提供统一计算引擎、实时入湖、湖上建仓等能力。将原始的、加工清洗的、模型化的数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型数据集市业务,实现“湖仓集一体”。

湖仓一体下的数据架构


02、全域数据资产管理

统一元数据管理:标准化工作是湖仓一体化建设的基础,可以提高系统的开发质量、保证系统有序的运转。一是构建数据标准规范,包括命名规则标准和数据层次标准。采用统一的命名方式,保证了读取对象名能直观上理解或方便的查询业务含义。合理的分层将有利于数据管理和对数据多种方式的快速检索与分析,实现数据的有效共享和合理利用。

全域数据资产管理:企业级数据资产管理和组织能力,提供便捷的数据发现、数据理解和数据申请服务。

一站式数据开发:可配置数据平台引擎,分配租户资源;支持实时 SQL 血缘解析;提供强大 IDE 的开发体验;支持流数据处理和计算,通过拖拽方式快速配置;支持自定义函数;支持版本管理;区分开发环境、测试环境和生产环境,保护数据安全;支持在线数据探索。

一致的数据语义: 以维度建模为理论以事前治理的理念驱动,上承业务指标、分析维度的定义,下接实际的数据生产,保障设计态和生产态语义的一致性。

持续集成和持续发布:支持数据工程从开发、测试到上线的持续持续集成和持续发布功能,支持跨环境的管理流程模式。

基于 DataOps 的数据开发管控流程


03、数据治理贯穿全程

数据治理是从全局视角统领各个层面的数据管理工作,建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,确保各方都能得到及时、准确的数据服务。数据平台建设数据治理要先行,在数据开发管控过程中,数造科技将 DevOps 的敏捷开发、自动测试和持续集成应用到数据工程中,同时把数据治理工作融入到开发过程中,通过标准流程和自动化能力,促进数据开发的质量和数据治理效率,充分挖掘企业数据价值。


湖仓一体平台建设方案优势


01、成熟的数据仓一体底座

传统模式企业同时维护一个数据湖和多个数仓,这无疑会带来数据冗余和管理成本。湖仓一体平台支持多模数据架构,可以兼容数据仓库和数据湖未来新的技术组件,避免企业被某一技术架构绑定,减少了数据的重复存储。

02、加快数据需求响应速度

通过 DataOps 实现代码和数据的持续集成和迭代,打造一站式开发、快速便捷的统一数据开发平台,解决了以往数据开发过程复杂、协作困难的问题。分别从管理域、开发域、流程域,为企业数据开发工程师,结合开发状态、测试状态、生产状态等不同场景积累成熟的数据能力解决方案,提供数据全生命周期的全流程服务,实现企业数据开发周期从以前一周缩到现在 2 天以内。

03、主动的数据治理能力

以维度建模为理论基础进行体系化建模,以事前治理的理念驱动,让元数据贯穿其中的建模流程,上承指标、维度的定义,下接实际的数据生产,提前对数据进行规范约束,减少后期的数据治理的复杂度。以支持运营效果的提升和经营结果的真实呈现,充分实现数据资产价值。

04、可靠的信创生态支持

湖仓平台与数造开发管控平台均为自主研发产品,具备底层代码优化能力,并且兼容主流国产操作系统及 CPU 架构,支持适配多种国产数据库,支持多模数据架构,可以兼容数据仓库和数据湖未来新的技术组件,避免企业被某一技术架构绑定。




从未来数字化转型的发展趋势而言,湖仓一体必将在数字经济建设中发挥非常重要的作用。数造科技基于客户需求和技术演进趋势持续创新,为企业客户提供湖仓一体解决方案,致力于构建企业数据资源共享池,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值,目前已广泛应用于金融、政务、零售、能源电力、制造等多个行业,获得用户的信赖和认可。

用户头像

数造万象

关注

还未添加个人签名 2022-02-22 加入

还未添加个人简介

评论

发布
暂无评论
湖仓一体架构下的数据研发及管理_数造万象_InfoQ写作社区