写点什么

实时数仓 Hologres V2.2 发布,Serverless Computing 降本 20%

  • 2024-06-12
    浙江
  • 本文字数:2579 字

    阅读完需:约 8 分钟

Highlight

  • 新发布 Serverless Computing,提升大任务稳定性,同时可降低 20%计算成本

  • 引擎性能优化,TPC-H 1TB 测试相对 V1.X 提升 100%

  • 实时湖仓加速架构升级,支持 Paimon,直读 ORC、Parquet 数据性能提升 5 倍以上

  • 新增实例监控指标,可观测性全面提升,新增 SQL 指纹、Query 洞察、SQL 与表索引诊断等

  • 流量分析场景新增路径函数,支持跨可用区容灾、OpenAPI 能力升级


升级说明:Hologres 支持热升级,可以在实例后台进行自助升级与升级准备。升级流程请查看>>>

一、新发布 Serverless Computing,提供大作业隔离与弹性处理

功能说明:通过共享 Serverless 资源执行 DML 任务,保证大任务隔离与高可用,降低成本并提升性能。同时支持设置单条 SQL 使用 Serverless 的资源上限,支持设置使用 Serverless 资源的 SQL 优先级。详细请查看>>>应用场景:


  • 隔离与稳定性。计算资源开销大的任务,不会有争抢资源,OOM 等问题。

  • 成本降低。无需为大任务单独购买预付费资源,实际应用可降低 20%计算成本。



当前发布地域和可用区:华东 1(杭州)的可用区 J、华南 1(深圳)的可用区 F、华东 2(上海)的可用区 E、华北 2(北京)的可用区 I。

二、多种引擎能力优化,TPC-H 性能测试结果提升 100%

Hologres V2.2 提升了查询优化器和查询引擎的能力,1.1 版本使用 96CU 在 TPC-H 1T 的总查询耗时为 223.08 秒,在 V2.2 版本中,测试结果为 111.53 秒,性能提升达到 100%。详细结果请查看>>>



引擎性能优化包含:向量执行引擎 HQE 能力提升


  • Runtime Filter 能力增强,在 Join 场景上,支持多种过滤类型,无需手动设置,引擎自适应,在减少数据扫描量的同时也能减少 join 的计算量和数据的网络传输量,有效提升 Join 的查询效率约 30%。

  • 优化 HQE 的 RPC 连边机制,每个 Worker 内数据先合并再进行 Worker 间分发,显著降低网络开销,在带有 Shuffle 的场景上,查询性能提升 8%。


查询优化器性能提升,SQL 在 Plan 阶段的处理速度提升 40%


  • 优化内存分配机制和 Join 算法,提升多 Join 场景的查询性能。

  • 优化 DATE_PART 函数行为,提升对带有时间属性的字段(如年份)的查询效率。

  • 优化 DATE 和 TIMESTAMP 类型字段的比较行为,提升时间字段的查询效率。

  • 优化复杂函数中带有 Filter 的运算行为,通过调整多个 Filter 的顺序,减少数据计算量,提升查询效率。

三、实时湖仓架构升级,性能提升 5 倍,外表元数据自动加载提升分析体验

HologresV2.2 版本针对实时湖仓架构进行重构,显著提升了数据湖的查询性能,并通过外表元数据自动加载(Auto Load) 提升实时湖仓的用户使用体验。实时湖仓架构升级包含:


  • 实现 HQE 引擎直读 OSS 上的 ORC、Parquet 数据,相较于原引擎有 5 倍以上的性能提升

  • 针对 ORC、Parquet 格式的外部表支持谓词下推过滤,减少数据扫描量,提升查询效率

  • 支持使用内置高速磁盘和内存实现多级缓存


外表元数据自动加载(Auto Load)能力增强:支持一键绑定外部数据源,实现 DB 或者 schema 级别的映射,简化和降低外表创建成本,包含:


  • 支持 MaxCompute 三层模型 Project,可以将 MaxCompute 三层 Project 中的一个或多个指定 schema 数据按需或者全量映射到 Hologres

  • 支持 MaxCompute 外部表的 Schema Evolution(如增加列、删除列、修改列名及列顺序)

  • 支持通过 DLF 元数据自动加载,来加速查询存储于 OSS 的数据


详情请查看>>>


四、实例诊断能力提升,新增 SQL 指纹、Query 洞察、SQL 与表索引诊断等

新增 SQL 指纹,快速定位 Bad QuerySQL 指纹是 Hologres 提供的一种自动 Query 聚类分析能力。V2.2 版本在存放慢 Query 查询日志的系统表中,新增 digest 列以展示 SQL 指纹。对于 SELECT/INSERT/DELETE/UPDATE 类型的 Query,系统会计算一个 MD5 哈希值作为该 Query 的 SQL 指纹,帮助业务快速识别占用资源的 Query 以及异常 Query 等。详情请查看>>>新增 Query 洞察可视化,全方位获取查询诊断信息在 holoweb-诊断与优化中,通过 Query ID 就能快速获取当前 Query 的执行信息,例如 Query 进程的资源消耗、Query 所涉及的表的元数据,以及 Query 对应的执行计划(plan)。同时可以通过 Query 洞察快速判断当前 Query 是否产生了 DDL 冲突,以及表锁情况,辅助业务进一步排查问题和处理问题。详情请查看>>>



新增 SQL 诊断和表索引诊断,快速完成实例治理在 holoweb-诊断与优化中,SQL 诊断通过对不同维度的 Query 趋势、明细分析,可以辅助您了解实例的使用情况并做相应的优化,以达到更好的效果。详情请查看>>>



在 holoweb-诊断与优化中,表索引诊断对当前实例的 Table Group、表、索引等进行诊断,帮助业务进行实例治理,从而辅助提升实例的稳定性和性能。例如:


  • 一个 Table Group 的内表总数不建议超过 1W 张,优化后将提升 DDL 性能。

  • 对于分区子表超过 1W 张的分区表,建议使用冷热分层 ,以节约存储成本。


详情请查看>>>



实例监控信息新增 15+Metrics,可观测性得到增强在实例列表-监控信息中,新增 15+metric 指标,提供不同执行引擎的 QPS、RPS、Latencty 等以及可观测 Binlog、Serverless 等功能的运行情况,以方便及时了解任务的负载。同时也提供 Locks、Analyze 等健康度指标,可以帮助业务快速观测实例运行健康状态,及时处理异常。


五、新增路径分析函数,更加丰富流量分析场景函数能力

在流量分析场景,需要计算访问每个流程/步骤的路径分布和情况,以及每个步骤的流入流出情况,原有 SQL 计算方式较为复杂,并且影响计算性能。Hologres 通过一个路径分析函数即可实现路径分析,简化用户路径分析流程,与之前推出的漏斗函数、留存函数、明细圈人函数、Roaring Bitmap 函数、BSI 函数等结合,实现完整、丰富的流量数据分析方案。详情请查看>>>


六、支持跨可用区容灾,提升生产业务稳定性

跨可用区(AZ)容灾,即在同 Region 不同可用区部署同构的 Hologres 容灾实例,如果生产实例所处的地理位置发生自然灾害,或者实例内部出现了故障导致生产实例无法正常对外提供读写服务,那么容灾实例可以切换为生产实例,从而保障业务连续性。详情请查看>>>

例如:杭州 Region 某个可用区(例如可用区 H)中的 Hologres 实例无法正常运行时,可通过已配置的容灾关系,将同 Region 其他可用区(例如可用区 J)的 Hologres 实例切换为生产实例,保障业务正常运行。

七、OpenAPI 能力升级,提升实例运维管理能力

新增计算组列表与详情、数据湖加速功能、更新实例资源组等 OpenAPI,在 severless、数据湖分析等场景下,提升实例运维以及管理能力。详情请查看>>>


15000CU时计算包原价5313元,限时新购仅需59元>>>

前往实时数仓Hologres官网查看详情>>>

实时数仓Hologres V2.1版本发布,新增计算组实例构建高可用实时数仓>>>


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
实时数仓Hologres V2.2发布,Serverless Computing降本20%_大数据_阿里云大数据AI技术_InfoQ写作社区