TPC-H 基准测试:Databend Cloud 与 Snowflake 对比
快速概览
TPC-H
TPC-H 基准测试是评估决策支持系统的标准,专注于复杂查询和数据维护。在这项分析中,我们使用 TPC-H SF100(SF1 = 600 万行)数据集比较了 Databend Cloud 和 Snowflake,该数据集包含 100GB 数据和大约 6 亿行,跨越 22 个查询。
免责声明
TPC 基准测试™ 和 TPC-H™ 是交易处理性能委员会(TPC)的商标。我们的基准测试虽然受到 TPC-H 的启发,但与官方 TPC-H 结果不直接可比。
Snowflake 和 Databend Cloud
Snowflake:Snowflake 因其先进的功能而闻名,例如分离存储和计算、按需可扩展计算、数据共享和克隆能力。
Databend Cloud:Databend Cloud 提供与 Snowflake 类似的功能,是一个云原生数据仓库,也将存储与计算分离,并根据需要提供可扩展的计算能力。 它是从开源 Databend 项目发展而来,定位为 Snowflake 的现代化、高性价比替代品,特别适合大规模分析。
性能和成本比较
在数据加载方面,Databend 的成本比 Snowflake 低约 67%。
在查询执行方面,Databend 比 Snowflake 约高出 60% 的成本效率。
注意
基准测试中没有进行调优。结果基于 Snowflake 和 Databend Cloud 的默认设置。 记住,不要只是相信我们的话 —— 我们鼓励您自己运行并验证这些结果。
数据加载基准测试
查询基准测试:冷启动
查询基准测试:热启动
复现基准测试
您可以按照以下步骤复现基准测试。
基准测试环境
Snowflake 和 Databend Cloud 都在类似条件下进行了测试:
TPC-H SF100 数据集,来源于 Amazon Redshift,已经加载到 Databend Cloud 和 Snowflake 中,没有进行任何特定的调优。
基准测试方法
我们对查询执行进行了冷热两轮运行:
冷运行:在执行查询之前,数据仓库被挂起并恢复。
热运行:数据仓库没有被挂起,使用本地磁盘缓存。
先决条件
拥有一个 Snowflake 账户
创建一个 Databend Cloud 账户.
数据加载
Snowflake 数据加载:
登录您的 Snowflake 账户.
创建对应 TPC-H 架构的表。SQL 脚本.
使用
COPY INTO
命令从 AWS S3 加载数据。SQL 脚本.Databend Cloud 数据加载:
登录您的 Databend Cloud 账户.
创建必要的表,与 TPC-H 架构相符。SQL 脚本.
使用类似 Snowflake 的方法从 AWS S3 加载数据。SQL 脚本.
TPC-H 查询
Snowflake 查询:
登录您的 Snowflake 账户.
运行 TPC-H 查询。SQL 脚本.
Databend Cloud 查询:
登录您的 Databend Cloud 账户.
运行 TPC-H 查询。SQL 脚本.
版权声明: 本文为 InfoQ 作者【Databend】的原创文章。
原文链接:【http://xie.infoq.cn/article/ee28f6f51c857e229114cd791】。文章转载请联系作者。
评论