云原生数据湖为什么要选择腾讯云大数据 DLC,一份性能分析报告告诉你!
摘要
日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中 SQL 平均执行查询时间短,性能表现优。腾讯云大数据 DLC 在存算分离和大数据量查询场景下,海量查询性能较 A 厂商 产品提升 248%,较 B 厂商产品提升 36%。
在存算分离大数据量查询场景下,腾讯云大数据 DLC 较 A 厂商 、B 厂商表现更优,同时在较大任务上的任务执行成功率更高,所有任务均成功执行。结合性能、性价比、使用体验等因素,腾讯云 DLC 在云原生数据湖选择上整体上更具有竞争力。
1、数据湖性能对比资源规格
2、数据湖性能对比场景
本次性能对比在海量数据查询分析场景下进行测试。数据分析人员可以从海量明细数据中探寻业务规律,发现业务机会,验证业务假设。要求产品既能快速响应,处理大规模作业,同时还可以自动匹配大规模作业资源需求,满足分析人员分析不同规模和复杂度的查询作业的需求。本次测试使用 TB 级数据,模拟实际生产海量数据分析的场景对数据分析产品进行性能对比。
3、数据湖性能对比工具与方案
测试利用了 TPC-DS 基准,该基准由交易处理性能委员会(TPC)创建的数据集和查询组成。在衡量数据分析工具和数据库的性能方面,TPC-DS 是公认的行业标准。本次性能对比测试共 97 个 SQL 查询,使用 TPC-DS 工具定制数据量,测试数据与实际商业数据高度相似,因此可结合在 TPC-DS 测试基准下所开发出的 TPC-DS 测试工具对大数据产品进行性能分析。
本性能分析报告结论仅对本文档中所描述相同测试环境有效;软件版本、参数配置、设备配置、网络环境等要素均会影响性能分析结果。建议客户基于实际的业务模型进行实测验证,以全面地评估该配置是否符合业务要求。
4、数据湖性能对比结论
DLC 在本次性能对比中,从存算分离场景下大数据量的测试中,有着明显的性能优势。DLC 以低成本、高弹性的云原生数据湖解决方案,成为海量数据快速上云中的最佳实践。本次性能对比中,DLC 在产品性能、易用性、语法兼容性、成本方面,都体现出了一定优势。
A 厂商 vs DLC
A 厂商产品 Spark SQL 无法通过 SQL 编辑器提交,需要额外购买资源通过 client 提交,增加用户使用成本和学习成本。
A 厂商产品 SQL 语法兼容性问题多,与主流数据库语法存在差异,不支持部分 Hive、MySQL、Oracle、SQL Server 语法,性能调优规则与业界不一致,易用性较差,本次性能对比中共出现 4 条由于语法不兼容/ SQL 未通过校验导致执行失败的任务。
A 厂商产品与该厂商其他云产品过度耦合,使用成本较高,体验上存在割裂。
B 厂商 vs DLC
B 厂商产品计算引擎容错性较差,大计算量耗时查询出现失败,本次性能对比中共出现 6 条执行失败的 SQL 。
B 厂商产品不支持动态分区查询,同样的任务数据扫描量比 DLC 更大。
B 厂商产品 Presto 引擎仅支持共享引擎,客户没法购买独享资源,更适合分析频率低、计算数据量较小的场景使用,不适合在正式生产环境中使用。DLC 支持 Presto 和 spark 引擎,根据使用场景选型,支持多种计费模式,节约用户成本。
5、数据湖性能对比数据详解
5.1 总耗时及任务成功率对比
本次性能对比中,全部 SQL 执行查询任务所需的平均耗时如下图所示,其中 A 厂商相比 DLC 和 B 厂商有明显的性能差距,在三款产品中,DLC 的性能表现更优。
其中 DLC 平均执行时间为 141.7 s,A 厂商平均执行时间为 492.8 s,B 厂商平均执行时间为 193.0 s。
下表显示了各产品相对于 DLC 引擎的平均查询执行时间的百分比:
任务执行成功率如下:
DLC 返回错误的任务有 0 个,最终无法成功执行的任务共 0 个,成功执行 97 条任务,任务执行成功率为 100.0 %;
A 厂商产品语法不兼容无法执行的任务有 2 个,最终无法成功执行的任务共 4 个,成功执行 91 条任务,任务执行成功率为 95.8% ;
B 厂商产品执行失败任务共 6 个,成功执行 91 条任务,任务执行成功率为 93.8 %。
5.2 单个任务耗时对比
本次性能对比中,99% 的单个 SQL 任务查询平均耗时,DLC 低于 A 厂商或 B 厂商。
如下图所示:
单个 SQL 任务下友商相对于 DLC 的耗时对比如下图所示:
(计算公式:(友商耗时- DLC 耗时)/ DLC 耗时)
可以直观看出 DLC 整体性能表现更优,在存算分离场景下,大多数任务中 DLC 的速度与性能相较于友商均有显著提升。
6、数据湖性能对比分析及使用建议
数据湖计算 DLC 产品在本次的性能对比中,体现出以下几个方面的独有优势,用户可以根据使用场景和诉求,选择合适的方案开始您的敏捷数据分析:
6.1 存算分离,资源无限拓展
本次性能对比基于存算分离场景开展,在此场景下,A 厂商在对外部表进行分析时性能与 DLC 有着较大差异,单条 SQL 的执行时间为 DLC 的 2-4 倍,B 厂商支持将数据存储到对象存储产品,B 厂商可以直接和对象存储产品对接进行数据分析,同样在性能上与 DLC 存在一定劣势,平均耗时比 DLC 多 36 %。
数据湖计算 DLC 将存储与计算分隔开来,支持用户根据场景选择适合自己企业的存储和处理解决方案,并控制各项解决方案的访问权限和费用。用户无需迁移,即能够轻松使用标准 SQL 分析 COS 中的数据。新手也可以敏捷地分析大规模数据集,可与 COS 数据目录进行开箱即用集成。
使用建议
当您希望无需迁移数据即可快速进行海量数据分析,节约存算成本,DLC 构建在腾讯云托管存储之上的存算分离架构可解耦存储和计算,允许二者独立扩展。架构上,存储层理论上可以无限扩容,计算层支持弹性伸缩,可以快速水平扩缩容;基于此,业务真正可以做到按需付费。在存算分离场景下与友商进行充分的性能分析对比,相比 A 厂商 ,性能提升 2~4 倍。存算分离的架构作为云原生架构的经典选型,满足用户对成本、扩展性、性能的极致追求。
6.2 标准 SQL,一次性解决语法兼容性
A 厂商 的 SQL 语法兼容性问题多,本次性能对比中共出现 4 条由于语法问题导致无法执行的任务。而 DLC 则支持通过一套标准 SQL 语法几乎可以无缝在 DLC Serverless Spark 和 DLC Serverless Presto 引擎上运行。元数据和分析语法、函数,基本兼容 Hive 和 Spark 语法,支持自定义函数。
使用建议
如果您希望使用一套标准语法即可解决多引擎、全场景下的数据分析任务,DLC 支持使用标准 SQL 即可开始数据分析,无缝运行于多种引擎,一次性解决语法兼容问题。
6.3 SaaS 化体验,敏捷使用
相较于 A 厂商与其他产品深度耦合,需要借助其他工具进行使用,DLC 产品自闭环能力强,易用性极强。DLC 提供轻量化产品体验,丰富的控制台交互能力,可视化操作;SaaS 化体验,开箱即用,无需运维。
使用建议
如果您期望拥有 SaaS 化的云上数据分析体验,又在担心选配、安装、调优过于复杂,DLC 为您提供敏捷易用的轻量化产品,开箱即可使用,帮助您快速开启云端数据分析之旅。
6.4 自适应 Shuffle,提升引擎稳定性
在性能对比测试中部分较大任务成功率明显优于友商,所有 SQL 均成功执行。DLC 支持自适应 Shuffle 管理,保证了 ETL 的稳定性。通过自适应 Shuffle 的实现,彻底解决了磁盘空间不足的问题,保证了 job 运行的稳定性,提高容错性。优先使用 disk 保证性能,少数情况 spill to lakefs 保证任务稳定性,用户无须评估 shuffle 空间,调整磁盘大小,用户无须运维 shuffle service,该 shuffle service 无须购买,使用零成本。
使用建议
如果您希望提升计算引擎的容错性,保证任务执行成功率,DLC 原生支持 shuffle service ,无需运维,无需购买,零成本提升引擎稳定性。
6.5 成本节约,多种计费模式
此外,DLC 为用户提供独享 Presto 资源和 Spark 资源,提供按 cu 使用量计费服务,相较于 A 厂商独享集群不提供按量付费的计费模式,B 厂商 Presto 引擎不支持购买独享资源,DLC 为用户提供了更多选择,可有效较低使用成本。
使用建议
您可以根据使用场景,选择合适的引擎类型和计费方式,节约综合使用成本。共享引擎是 DLC 服务开通后自带的数据引擎,适合分析频率低、计算数据量较小的场景使用。用户无需配置、管理资源,按任务扫描量计费。独享引擎是用户付费购买的专属于自己的数据引擎,适合大数据量下的资源,支持按量计费、包年包月两种付费模式。
6.6 动态分区查询,提升计算性能
在性能对比中,B 厂商产品由于不支持动态分区,只能使用非分区表进行查询,同样的任务数据扫描量比 DLC 更大。在生产中,业务数据是伴随着用户交易时产生的,比较符合时序序列数据的特点,且每天数据量较为平均。结合以上特点,我们针对该数据表采用时间分区即按天建数据分区的方案。动态分区查询支持用户在数据导入的操作中不指定分区值,而是根据数据中的 create_time 自动导入到相应分区,使用已经分好区的数据表执行 SQL 筛选数据,提升查询性能。
使用建议
当您希望查询时能快速定位列值,使用分区列进行过滤从而提升查询效率,DLC 支持用户将数据按照分区目录的方式进行存储,将不同特征的数据存放在不同的目录下,在进行数据探索时按照分区进行过滤,DLC 的数据扫描量将大幅减少,提高查询效率,节约存储成本。
6.7 Iceberg 存储格式,湖上建模最佳实践
在本次性能对比中,DLC 独家支持 Iceberg 稀疏索引助力湖上亚秒级分析场景;有效提升了查询分析性能;Iceberg 存储格式,保障数据读写并发的事务能力;上游数据写入即可见,不影响当前数据处理任务,简化了 ETL;提供 Upsert / MergeInto 能力,可以极大缩小数据入库延迟(分钟级)。
使用建议
如果您需要进一步提升查询分析性能,DLC 选择 Iceberg 为新一代表格式构建数据湖系统,解决大数据湖场景下的众多存储问题,加速查询性能,相比社区方案和友商,有着明显的性能提升。
6.8 高性能内核引擎,海量数据查询
DLC 持续为用户提供最新版本的内核引擎,当前已经支持 Spark 最新版本 3.2 ,该版本主要优化了查询分析的性能:如自适应查询执行,对正在执行的查询任务进行优化。自适应查询执行使 Spark 计划器在运行过程中可以检测到在满足某种条件的情况下可以进行的动态自适应规划,自适应规划会基于运行时的统计数据对正在运行的任务进行优化,从而提升性能。在与友商 Spark 引擎下大数据量查询的性能对比中,体现出了明显的优势,友商在对比中扫描数据量比 DLC 多,耗时更久。同时 DLC 通过 Spark session 常驻共享,大大缩短 query 的查询时间。
使用建议
如果您在正式生产环境中使用 DLC,希望拥有专属的高性能引擎资源,可以购买独享数据引擎。Presto 和 Spark 独享引擎均支持按量计费和包年包月。
云原生数据湖为什么要选择 DLC?
腾讯云云原生数据湖产品 DLC 是引领数据技术趋势的新一代云原生敏捷数据湖分析服务,帮助用户快速实现企业数据湖的存储、治理与分析挖掘,高效释放数据湖无尽数据价值。有更高的敏捷度、灵活度,以任意规模存储所有结构化和非结构化数据,通过运行多种类型的分析计算, 挖掘数据的价值。
六大核心,引领行业
敏捷易用
数据湖计算 DLC 提供 SaaS 化体验,无需选配、安装、调优,开箱即用。
产品支持使用标准 SQL 语法,无缝运行于多个引擎,用户使用标准 SQL 即可开始数据分析。
支持云上多种数据设施,用户无需额外加载数据,通过统一的数据视图,实现多源异构数据联合分析。
成本节约
数据湖计算 DLC 采用存算分离的海量大数据分析架构,大数据组件容器化实现快速灵活部署,基于云原生对象存储的方式实现无限拓展、弹性伸缩。
支持按量计费,降低用户查询分析的成本。
采用数据分区或列式压缩格式,可以进一步节约成本。
极致性能
采用无服务器(Serverless)架构,用户无需关注底层运维,计算资源即用即毁,系统根据算力需求提供秒级伸缩和动态扩容能力。
提供高性能数据引擎,高效建模提升查询效率,0 成本缓存加速方案带来极致性能体验。产品实现交互式查询、批量查询、智能分析等多种场景全覆盖。
安全加固
基于腾讯云成熟的 VPC 网络隔离技术,保证多租户隔离。
通过腾讯云品质的安全加固,实现高可靠的数据的安全。
细粒度的权限管控,操作更加安全。
数据科学
数据湖计算 DLC 快速支持各种机器学习能力,满足一站式智能分析场景。
产品提供可视化能力助力用户通过预测分析实现数据洞察。
生态融合
无缝融合腾讯云数据生态,可以直接读取云存储服务数据。
具备良好的跨平台兼容性,支持各类上层数据应用。
多元场景,一湖到位
敏捷实时的数据湖分析
DLC 采用存算分离的海量大数据分析架构,基于大数据组件容器化实现快速灵活部署,基于云原生对象存储的方式实现无限拓展,结合 DLC 先进的云原生弹性模型,充分贴合业务真实使用曲线,真正为您节省成本。DLC 以低成本、高弹性的云原生数据湖解决方案,助力企业建立统一数据资产,最大化发挥性能优势,赋能业务应用敏捷创新。
助力企业敏捷搭建数据中台
数据湖计算 DLC 本身作为新型数据架构,本身提供轻量敏捷易用和低成本的闭环大数据分析能力,用户可以借助数据湖提供的统一元数据管理视图,消除数据孤岛。同时也可以组合云上丰富大数据产品的优势,满足各类数据实时、离线分析场景,全方面解决企业各类问题。通过数据的便捷快速流动,可以有机组合不同云上产品的能力和优势,使得 DLC 得以作为企业最佳数据中台和数据启动场所。
敏捷数据湖联邦分析
DLC 帮助客户实现由数据库场景无缝升级到大数据场景,支持对多源异构数据进行联合查询分析,包括对象存储、云数据库、其他数据服务等。用户通过统一的数据视图,使用标准的 SQL 即可快速实现多源数据联邦分析,打通数据孤岛,发挥数据价值。
丰富多元的数据湖科学分析
数据湖是 AI 场景的大数据基座,在经典机器学习场景和深度学习场景下服务用户,DLC 提供结合各种 AI 能力及平台,快速支持各种机器学习能力,在多种智能数据湖分析场景下,提供综合性解决方案。DLC 将多个行业数据免费开放给用户,无需数据获取、清洗即可直接进入数据分析阶段。产品提供强大的 BI 能力助力用户通过预测分析快速实现数据洞察。
评论