ETL 数据集成丨主流 ETL 工具 (ETLCloud、DataX、Kettle) 数据传输性能大 PK
目前市面上的 ETL 工具众多,为了方便广大企业用户在选择 ETL 工具时有一个更直观性能方面的参考值,我们选取了目前市面上最流行的三款 ETL 工具(ETLCloud、DataX、Kettle)来作为本次性能传输的代表,虽然性能测试数据有很多相关文章都有评测但是基本上也是各说各话或在不同条件下的对比,缺少一个在公平环境和数据量下的直观对比和一个可性的评测结果, ETLCloud 作为国内 ETL 工具的代表本次我们采用线上直播的方式向广大用户进行了现场的性能评测,评测可以说是在相当公平公正的情况下直播进行的,如果用户想亲自进行评测也可以按照本文后面的配置要求和版本下载后进行对比评测。
本次直播的内容最主要是测试在不同数据量 100W-1000W 下,MySQL、SQLServer、Postgre SQL 之间进行数据传输时 ETL 的最快传输速度,每种工具均采用最快的 5 通道进行批量数据插入,所有 ETL 工具采用公开的社区或开源版本进行对比评测,不针对任何一款 ETL 工具进行单独的调优,因为很多用户在下载后也是直接使用很少会进行高级别参数的调优,所以在这种情况下更能代表这款 ETL 工具真实使用场景时的传输性能。
本次评测的结果 ETLCloud 相对于 kettle**快了 24.16%的性能,相对于 DataX 快了 27.8%**的性能,同时在不同数据量下 ETLCloud 和 Kettle 表现更为稳定,而 DataX 在不同的数据量下波动范围更多,数据量越大时 DataX 的性能有逐步提升的趋势。
对于评测结果来说 ETLCloud 的性能之所以相对于其他 ETL 工具性要快最主要取决于 ETLCloud 研发团队不断对工具底层引擎和算法调优的结果,我们经过大量的项目 PK 和大数据量的考验对底层的数据读取和写入以及中间过程的序列化均进行了长时间的不断优化和测试,同时 ETLCloud 很好的在性能和功能方面取得了比较好的平衡策略,有些 ETL 工具虽然性能更快但是功能很弱只适用于某一种场景,而像 Kettle 虽然功能很强但在性能方面受制于项目的体积逐步降低了性能。ETLCloud 在性能和功能方面都取得了非常好的成绩,这也是我们一直追求极致产品的结果。
以下是针对不同数据量下的传输性能评测的汇总数据:
直播评测实验中,参与测试的工具均安装于 windows Server2019 数据中心版操作系统的阿里云服务器,服务器配置 8 内核,32G 内存以及 100G 数据盘,公网宽带 5M,各个工具均配置相同的内存参数,有些 ETL 工具由于不支持 Windows 操作系统的安装没有纳入本次评测范围。
测试过程使用 3 款主流 ETL 工具测试 2 种不同的数据集成场景下,3 种不同数据量传输的情况,包括数据库的查询、写入和存储。为了保证测试数据的真实性和公平性,所有测试流程都采用相同的配置和传输模式,同时为避免因目标数据库被重复清空和写入带来的性能影响,相同数据量下所有工具依次进行测试。
通过测评结果看出,ETLCloud 在每个场景下测评速度居于首位,从平均值来看,ETLCloud 平均比 kettle 快 24.16%,比 DataX 快 27.8%,可以说,ETLCloud 是国内大数据量下传输速度最快的数据集成工具。
具体的测评实验过程,请点击下方链接观看:https://www.bilibili.com/video/BV1qx4y1t7xW/
评论