对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements
大家好,我是明哥!
1. 聊聊信创与 Oceanbase 数据库
熟悉金融行业的小伙伴们大都知道,银行券商基金公司保险公司等金融行业的中大型企业,都在积极响应国家号召,高举信创的大旗,从服务器/操作系统/数据库/中间件等软件生态的方方面面,探索国产化的各种可能方案。
其中在数据库层面,我司目前推出的方案主要有三个:
对接蚂蚁的 Oceanbase;
对接 PingCAP 的 Tidb;
对接我司的 LightDb;
以上三种方案,目前我司在不同券商都有一些落地方案。
2. 聊聊 datax 的 Oceanbase 数据同步方案
不管客户选用哪种信创数据库的方案,不可避免的一个话题都是数据集成/数据同步,目前我司使用最多的一个方案是基于阿里开源的数据集成方案 datax 二次开发而来的一个方案。
那么 datax 对接 OceanBase 时,都有哪些同步方案可选呢?
一是 datax 的 rdbmsreader/rdbmswriter: 因为 Oceanbase 提供了 JDBC 驱动,所以当然可以使用 datax 的支持所有关系型数据库的通用 RDBMS 插件来同步数据;
二是 datax 推出的 OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader:了解社区发展动向的小伙伴们,会留意到,datax 在 2021 年 5 月推出了开源的 OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader,如下图所示:
image
3. 对比下方案 rdbmsreader/rdbmswriter 和 方案 oceanbasev10writer/oceanbasev10reader 的同步效率
一般来讲,专用的插件会比通用的插件性能要高,我们基于我们的场景,对 120W 左右的数据的插入速度进行了测试,从结果来看,使用 oceanbase 定制的 oceanbasev10writer 插件之后,插入性能比通用插件 rdbmswriter 提升了 12 倍左右:
image
说明:
我们这里没有对读取插件进行详细的性能测试对比,但有理由相信,其性能应该也是有不少提升的;
当然大家的场景不一样,数据库表的结构有差异(有无索引,表字段多少,字段类型等有差异),测试结果可能不尽相同,但结论应该是类似的:定制插件比通用插件性能要高!
4. 深入剖析下 oceanbasev10writer/oceanbasev10reader 插件
开源的魅力就在于,你是可以看到源码的!只要你想,通过查看源码,即可分析其方案原理和细节差异;
通过查看 datax 的源码,笔者发现,以下两个类的如下三个方法中,显示地对 oceanbasev10writer/oceanbasev10reader 的 jdbc url 添加了链接参数 rewriteBatchedStatements=true:com.alibaba.datax.plugin.writer.oceanbasev10writer.ext.OBDataSourceV10#buildJdbcPropertycom.alibaba.datax.plugin.rdbms.util.DataBaseType#appendJDBCSuffixForWritercom.alibaba.datax.plugin.rdbms.util.DataBaseType#appendJDBCSuffixForReader
image
image
image
看到这里,熟悉 Mysql 的 JDBC 连接参数 rewriteBatchedStatements 的小伙伴们,大概就猜到了:datax 的 OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader,由于底层使用了 jdbc 的 batched Update 功能,所以性能比没有使用 jdbc batched update 功能时,速度有了数十倍的提升!
答案确实如此!
事实上,出于好奇,我们切换使用了 datax 的 RDBMS 通用插件 rdbmsreader/rdbmswriter,但在 jdbc url 中显示添加了参数 rewriteBatchedStatements=true,经测试,其数据写入速度跟上述专用插件的写入速度并无明显差异!
通过查看源码,我们还发现,datax 对 mysql 的写入操作做了类似处理,所以概括下:
使用 datax 读写各种关系型数据库 rdbms 时,推荐使用其专用读写插件,此时不用做特殊配置好,即能做到最优的读写性能;
当使用 datax 写入到 mysql 和 oceanbase 时,如果使用其 专用写插件(MysqlWriter 和 oceanbasev10writer),此时底层使用到了特性 jdbc batched update, 所以性能比较好!
当使用 datax 写入到 mysql 和 oceanbase 时,如果使用 datax 的 rdbms 通用插件(RdbmsWriter),此时需要显示在 jdbc url 中指定参数 rewriteBatchedStatements=true, 才能使用到特性 jdbc batched update,才能做到较好的性能!
image
微信公众号主要用来信息的传播和分享,同名知识星球主要用来知识的沉淀和积累,欢迎大家扫码加入免费知识星球 “明哥的 IT 随笔”,这是一个围绕泛大数据生态的技术交流社区,可以探讨任何 IT 技术话题和工作上的问题,一起学习共同进步!
image
版权声明: 本文为 InfoQ 作者【明哥的IT随笔】的原创文章。
原文链接:【http://xie.infoq.cn/article/bfd175ccf3f4ef6e71500a2b2】。文章转载请联系作者。
评论