写点什么

etl 增量对比解决方案 etl-engine 如何实现增量对比抽取

作者:weigeonlyyou
  • 2023-03-15
    北京
  • 本文字数:999 字

    阅读完需:约 3 分钟

etl 增量对比解决方案 etl-engine 如何实现增量对比抽取

什么是增量对比

增量是相对于全量来说的,它们都是处于“同步数据”这个场景中。

  • 全量同步实现的逻辑是不管原表与目标表数据是否发生过变量,都要定期将原表数据全部覆盖到目标表,以保证目标表数据的完整性。

  • 增量对比实现的逻辑是将原表与目标表的数据通过算法进行对比,然后只将差异数据(增加、删除、修改)同步到目标表,在最小化操作目标表的同时还保证了目标表数据的完整性。

增量对比的必要性

模拟一个使用场景,业务系统 A 表中的数据要同步到数据仓库 B 表中(最简单的样例是 A 表与 B 表结构完全一样),

  • 全量同步实现方式:

把 A 表数据全部同步到 B 表中,目的是让两表数据始终保持一致,这种方式一般都是采用简单粗暴的方式来实现,实现起来就是先删除 B 表数据,然后再将 A 表数据全部插入到 B 表,

优点是操作简单,缺点就是数据量大时(假设 A 表有 1 亿条记录,其中只有一条记录发生变化),也要先删除 B 表中的 1 亿条记录,然后再将 A 表中的 1 亿条记录插入到 B 表中 ,很显然全量同步方式已经不适合了。

  • 增量对比实现方式:

1、选择出 A 表与 B 表中业务属性相同的字段作为对比的主键;

2、根据主键进行两表的对比,如果主键不同,证明 A 表中有数据删除或新增;

3、如果主键相同,再对比其它字段,如果其它字段都相同证明数据未发生变化,否则 A 表中有数据做了修改。

4、将差异数据同步到 B 表中。

优点是只将差异化数据同步到 B 表中,缺点是要事先按条件进行筛选对比的记录集(事先做好充分的业务分析),否则要对比的数据量过大会占用大量内存进行运算,并且等待对比结果的时间也很长(对比时间的长短取决于对比数据量的大小)。

etl-engine 增量对比节点

etl-engine 提供的增量对比节点实现了上述增量算法,只需要按配置要求进行相关配置,很容易实现增量对比效果并直接将差异数据入库到目标表(或转存差异数据),提高了开发人员及实施人员的工作效率。


增量对比场景 1


增量对比场景 2


参考资料

  [免费下载](https://github.com/hw2499/etl-engine/releases)  [etl-engine使用手册](https://github.com/hw2499/etl-engine)  [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6)  [嵌入脚本开发](https://github.com/hw2499/etl-engine/wiki/%E5%B5%8C%E5%85%A5%E8%84%9A%E6%9C%AC%E5%BC%80%E5%8F%91)  [etl-engine配置样例](https://github.com/hw2499/etl-engine/wiki/etl-engine%E4%BD%BF%E7%94%A8%E6%A0%B7%E4%BE%8B)
复制代码


用户头像

weigeonlyyou

关注

还未添加个人签名 2022-12-26 加入

还未添加个人简介

评论

发布
暂无评论
etl 增量对比解决方案 etl-engine 如何实现增量对比抽取_大数据_weigeonlyyou_InfoQ写作社区