写点什么

新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

作者:星环科技
  • 2024-03-01
    上海
  • 本文字数:2274 字

    阅读完需:约 7 分钟

新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技 TDH 一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技 TDH 正式发布了 9.3 版本。

推出了新一代湖仓集存储格式 Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升。

此外,TDH 9.3 对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库 Transwarp Hippo。

共支持 11 种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。


新一代湖仓集一体架构

打破湖仓集边界



传统湖仓集混合架构,需要部署多个平台进行数据存储,造成数据冗余和存储资源浪费。

其次,数据需要跨平台 ETL 流转,流转开销高,时效性较差。数据跨平台流转中还容易导致不⼀致,影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低。



TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。



基于 TDH9.3 湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到 TDH 中,结构化数据统⼀由 Holodesk 来承载湖仓集的存储。

通过统⼀SQL 引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。



一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3 将之前的⾼性能存储格式 Holodesk 进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求。



相比 ORC,更多功能、更高性能 相比于之前版本的 ORC 事务表,TDH9.3 的 Holodesk 具有更多的功能和更高的性能。


  • 无需手工分桶:ORC 事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk 不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。

  • 非分桶文件自动合并:Holodesk 具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。

  • 高频实时数据写入:实时场景下,Holodesk 支持实时流计算引擎 Slipstream 的实时数据写入和 Batch Insert 批量写入,满足数据湖的实时数据接入需求。

  • 性能数倍提升:Holodesk 的 IO 性能是 ORC 事务表的 10 倍以上,在 TPC-DS 1TB 数据集测试中,相⽐于 ORC 事务表,TDH 9.3 Holodesk 的性能提升了 3 倍。


相比开源湖仓,创新技术降本增效 相比于开源湖仓技术,如 Hudi / Iceberg 等,TDH 湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。


  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而 TDH 支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。

  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH 具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。

  • 实时数据快速读写:开源湖仓技术的实时数据写入基于 Merge on Read,虽然写得快,但读起来很慢。TDH9.3 优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。

  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于 TDH9.3 的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。


向量化计算引擎升级,引入 CodeGen 技术


TDH9.3 在存储升级的同时,向量化计算引擎引入了 CodeGen 代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU 指令集的 Native Code。生成的 Native Code 逻辑更简单。


避免了多余的运算和函数调⽤,运⾏更⾼效,同时 Native 引擎也不会 GC(垃圾回收),避免因 GC 导致性能降低。

综合性能大幅提升,再破 TPC 性能巅峰


TDH 是全球首个通过 TPC-DS 基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在 TPC 标准测试集中,TDH 再⼀次突破了 TPC-DS、TPC-BB、TPCx-HS 3 个测试集的性能。

  • 在 TPC-DS 10TB 测试集中,TDH⽐当前公开的最好成绩,性能提升了 27%。

  • 在 TPC-BB 3T 测试集中,TDH 是当前公开的最好成绩的 2 倍,同时系统成本降低了 67%。

  • 在 TPC-HS 3T 测试集中,TDH 比当前公开的最好成绩,性能提升 3%,同时系统成本降低了 69%。


此外,经过很多实际业务的验证,通过将 CDH 业务迁到 TDH 上,简单的业务加工性能是 CDH 的 1.26 倍,复杂业务加工是 2.69 倍,并发跑批是 2 倍,业务查询是 1.66 倍。而在替换开源数据库 GP 后,TDH 在复杂分析上基本上能实现 4-9 倍的性能提升。

用户头像

星环科技

关注

还未添加个人签名 2020-10-22 加入

领航大数据与人工智能基础软件新纪元

评论

发布
暂无评论
新一代湖仓集存储,多模型统一架构,高效挖掘数据价值_星环科技_InfoQ写作社区