袋鼠云思枢:数驹 DTengine,助力企业构建高效的流批一体数据湖计算平台
7 月 28 日,以“数智进化,现在即未来”为主题的袋鼠云 2022 产品发布会于线上正式开幕。发布会上,袋鼠云宣布将集团进行全新升级:从“数字化基础设施供应商”,升级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢对外正式发布了全新的四大产品体系:数据智能分析与洞察平台“数雁 EasyDigit”、低代码数字孪生平台 EasyV、一站式大数据开发与治理平台“数栈 DTinsight”和极速湖仓引擎“数驹 DTengine”。
他表示,“当前,数字化转型已然成为几乎所有企业的必选项,越来越多的企业将数据视为核心资产,加快数字化转型的战略部署。行业的变革、客户的需求不断督促着我们向前,袋鼠云产品研发迭代升级的脚步从未停止。
回顾过去,袋鼠云秉承让数据创造价值的使命,在大数据领域的多个方面实现突破;在未来,袋鼠云要深耕行业,实现业务与数据的双向驱动,进一步夯实企业数字化转型的数据基座,最大化帮助企业释放数据价值。”
思枢重点向大家分享了全新四大产品体系中的坚实底座——袋鼠云自主研发的极速湖仓引擎「数驹 DTengine」。
以下为思枢演讲全文:
大家好,我是袋鼠云产研负责人——思枢。非常感谢大家参与袋鼠云 2022 产品发布会,也很荣幸能够有机会在这里向大家介绍袋鼠云焕新升级后的系列产品。
首先想问大家一个问题,这也是很多数字化企业面临的问题:数据革命时代来临时,如何加快数据价值化呈现?
在这个过程中会面临 4 个问题:一是部署问题,如何简单快速部署一套大数据组件;二是数据源接入问题,如何对接多源多种异构的数据源,这些海量的结构化,半结构化和非结构化数据如何存储;三是数据处理效率问题,在面对这些海量的数据时,如何降低数据开发处理的门槛,并提高数据分析的效率;四是数据安全问题,数据透出的时候如何做到精细化权限管控。
有理由相信,许多数字化企业都迫切需要一套系统来解决上述问题,而数驹也正是由此而生。
数驹是什么?
下面首先请大家先重点看一下数驹的产品架构图:
数驹主要包括两个平台产品:一是大数据基础平台——EasyMR,负责 Hadoop、Hive、Spark、Flink、Kafka、Hbase 等大数据组件的自动化集群部署、监控、迁移、升级等功能。
EasyMR 除了能监管 Hadoop 生态体系组件,也可以根据 EasyMR 提供的 Schema 规范自动编排,快速集成客户侧自定义的开发应用。
所以使用 EasyMR 部署一套 Hadoop 组件,即使是零技术基础的小白,也可以通过可视化的界面进行一步步的引导操作,半个小时就能完成部署。
这里也说下 EasyMR 的开源版 ChengYing 已经在 Github 上开源,大家有兴趣可以下载试用。
Github:https://github.com/DTStack/chengying;
Gitee:https://gitee.com/dtstack_dev_0/chengying
二是数据湖平台——DataLake,在存储层通过流批一体数据同步框架 ChunJun,将结构化、半结构化和非结构化数据统一高效入湖,入湖后对数据文件做统一的规范管理和高效索引,极大的提高查询效率。
在元数据层做统一的 Catalog 管理,Schema 的自动推导,分区的动态生成和表结构演进。并且 DataLake 在计算层可以支持 Flink、Spark、Trino 等多种引擎做跨数据存储的联邦查询。
让业务响应更加及时,让企业运转更加高效,数驹诞生的目的就是让企业产生的所有数据,都能够被采集、被存储、被计算,赋予数据全新价值。
数驹好在哪?
除了数据高效入湖、联邦查询外,数驹还有其他几大领先产品特性和技术内核,接下来进行简单分享,帮助大家更好的理解数驹。
产品特性
· 数据入湖:集成流批一体框架 ChunJun 一键生成湖表信息
· 联邦查询:内置多种数据连接器高效索引,跨源联合分析查询
· 自主可控,安全保障:360°数据访问安全体系,细粒度的数据权限划分
· 极致便捷:一站式服务,开箱即用可视化操作
· 流批一体:统一存储逻辑,统一 SQL 语言,支持流批一体化分析
· 兼容并蓄,优化提升:对 Spark、Flink、Trino 等计算组件深度优化加速计算
袋鼠云一直以来都希望帮助企业充分发挥数字化能力,打造数字经济时代助力企业智能化“蝶变”的利器。基于此目标,我们为数驹打造的流批一体主要应用场景,一套代码实现多种业务场景,高效分析。
企业平台在支撑上层多种业务应用的过程中,依赖多种计算任务,包含离线和实时,二者独立运行,业务逻辑相同,但因数据延迟、代码语言差异等导致最终结果存在差异,需要额外的人力进行两套计算引擎的维护,造成大量的成本损耗。
基于数驹平台的数据存储管理能力,可以同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,降低学习、使用、维护成本,提高开发效率。
数驹将如何?
数驹作为袋鼠云今年推出的全新产品,近期有四大规划:
未来规划
·湖表管理优化:周期性的清理过期数据、快照,合并压缩小文件提升读取表的性能
·索引加速:通过 bloom index、data skipping index、zorder index 等一系列索引构建,提升数据湖查询性能,做到毫秒级响应
· 智能优化:相同特征的查询请求可以直接通过查询缓存和湖表数据变更快速返回结果,做到智能加速
· 智能运维:对事件、监控等运维对象深入透视,通过规则、算法等决策服务及时发布异常警告、自动进行运维决策
作为袋鼠云全新产品矩阵的排头兵,数驹将不断进化,继续在追求更极致的查询效率,更快捷的部署运维的道路上砥砺前行,坚持为企业数字化转型保驾护航。
袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack
版权声明: 本文为 InfoQ 作者【数栈DTinsight】的原创文章。
原文链接:【http://xie.infoq.cn/article/764ec4b8e243e9ed0faeb45a3】。文章转载请联系作者。
评论