写点什么

OLAP 数据库引擎怎么选?这本白皮书详解

作者:Geek_2d6073
  • 2023-08-30
    湖北
  • 本文字数:1949 字

    阅读完需:约 6 分钟

“有没有一个 OLAP 引擎,能完美适配所有场景?”

2023 年的回答依旧是“没有”。

因此,我们今年再度测评了各大主流 OLAP(Online Analytical Processing,联机分析处理)数据库引擎,并于不久前发布了《OLAP 数据库引擎选型白皮书》(2023),希望为企业的数据引擎选型提供客观、真实、可执行的参考,满足实际场景所需。

相较去年发布的白皮书,你将在 2023 版看到这些“新货”:

新增引擎测评,数据湖引擎又有何不同?

新增国内研发软硬件环境对比测评,它们在国产环境的表现究竟行不行?

测评维度再迭代!这五大行业客户最看重哪些方面?

测评八大数据引擎

数据湖引擎要“搞特殊”

在主流数据引擎(MySQL、Apache Doris、ClickHouse、Hive、TiDB 等)的基础上,2023 版还多了 2 个“新面孔”,即 ClickHouseof DataKun、Hudi。其中,对于 Hudi——典型的数据湖引擎代表,制定了更具针对性的测评维度。

ClickHouseof DataKun

ClickHouse 是为 OLAP 查询而设计的开源列式数据库,允许分析实时更新的数据,以高性能为目标。

为满足 UBA(增长分析)等分析云产品更高强度的分析需求,奇点云 DataKun 团队在 ClickHouse 社区版基础上进行了二次开发(我们把这个版本称为“ClickHouseof DataKun”)。

与社区版不同的是:ClickHouseof DataKun 实现逻辑上更新写操作;在漏斗分析、留存分析、归因分析、间隔分析、用户圈选、用户画像等场景,该版本的性能更提升了 2 倍。

Hudi

ApacheHudi 是一款极具代表性的事务性数据湖方案,通过强大的增量处理框架,重构了原本缓慢的传统批处理数据处理方式,从而实现低延迟、分钟级别的分析能力。

不同于传统数仓,数据湖在数据存储架构设计上更为灵活,适合处理原始的、多样化的数据。因此针对数据湖引擎,我们设计了不同的评测维度,包括离线/实时数据入湖、查询、稳定性等。

结果显示,Hudi 的优势体现在:支持多数据源类型快速入湖,具备快速跨分区更新写能力,与 Flink 组合使用表现出了优秀的流计算能力,能有效解决历史源数据结构化存储和历史分区数据快速更新等场景痛点。



↑测评总表节选,完整版详见白皮书↑

新增国内研发软硬件环境测评

性能表现达非国内环境的 90.8%以上

适配国产环境,已成为金融、政企等多个领域企业对大数据系统选型的硬性要求。然而,因操作系统、芯片架构等存在差异,同一个数据引擎在不同软硬件环境往往有不同的性能表现。

本次测评,分别选取了在数仓离线处理查询分析领域极具代表性的 Hive 和 ClickHouse(及 ClickHouse of DataKun),结合历史调研与行业客户最佳实践,选择了具有代表性的维度进行对比测试:选择事实表/宽表查询性能、TP 查询性能、AP 计算性能三个维度,共 128 条测试用例。

测试过程中,保持操作系统位数、服务器配置、CPU 算力、SSD 读写 IO 等技术指标在双环境一致。

结果显示:

Hive 在国内研发软硬件环境综合性能表现为非国内环境的 90.8%,其中事实表和宽表查询性能维度达 99.9%,TP 查询性能维度达 89%,AP 计算性能维度达 88.5%。

ClickHouse 国内研发软硬件环境综合性能表现为非国内环境的 92.2%,其中事实表和宽表查询性能维度达 85.7%,TP 查询性能维度达 90.7%,AP 计算性能维度达 94.7%。

在国内研发软硬件环境,从即席查询、TP 查询性能、AP 计算性能等 11 大项对比结果看,ClickHouse 社区版与 ClickHouseof DataKun 无评分差异。切入细项,从亿级别规模业务表在 join 和 union 查询的 12 条测试用例来看,ClickHouseof DataKun 结果较社区版提升 30%+。

测评维度再更新

贴合五大行业最佳实践所需

不同行业的数据业务场景不同,对 OLAP 数据库引擎的关键要求也往往不同。基于客户调研与过去 7 年的实践经验,我们得出了以下五大行业在引擎选型时的核心关注指标:

品牌零售:着重关注极致性能和高可靠性;

地产物业:着重关注 AP 能力与大批量数据写和更新能力;

智能制造:着重关注 AP 能力与大批量历史数据更新能力;

金融证券:着重关注稳定性、安全合规及数十亿级别表查询计算;

政企:着重关注稳定性与安全合规。

我们将上述指标纳入到了本轮测试中,最终形成了 11 个维度、41 个测评指标、267 条测试用例的最终测试方案及通用的选型步骤参考。

八大引擎最终测评结果?

OLAP 引擎选型步骤?

流、批、湖等各场景推荐什么引擎?

完整评测,尽在《OLAP 数据库引擎选型白皮书》。



One More Thing

奇点云数据存算引擎 DataKun 支持多类型数据库引擎,来支撑客户实现引擎的“自主可控”;同时,基于自研的大规模多引擎混合调度技术,能帮助客户综合应用不同引擎,自动调整资源使用情况,满足复杂的数据分析场景。

进一步,作为独立第三方,我们也有义务对 OLAP 数据库引擎做系统化的、全面客观的评测,分享大数据实践的方法论和评测结果,为更多客户和工程师们提供选型参考。

《OLAP 数据库引擎选型白皮书》是一份年度报告,奇点云将持续把更多引擎加入评测,并每年迭代评测维度及评测结果,祝大家都能找到“理想型”!

用户头像

Geek_2d6073

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

评论

发布
暂无评论
OLAP数据库引擎怎么选?这本白皮书详解_Geek_2d6073_InfoQ写作社区