写点什么

实战 | Kettle 实现 ES 到 ES 循环增量抽取

  • 2022 年 6 月 14 日
  • 本文字数:973 字

    阅读完需:约 3 分钟

实战 | Kettle实现ES到ES循环增量抽取

本博客内容,实践前,请先逐一浏览,然后再逐一学习

1、效果


image.png


2、实现

2.1 创建数据库

Kettle安装使用

2.2 创建作业

2.2.1 初始化变量:设置变量,通过变量实现作业的循环更新初始值

parent_job.setVariable("isContinue", "1");parent_job.setVariable("lastUpdateTime", "");true;
复制代码

2.2.2 创建核心转换

【见 2.3】

2.2.3 写日志记录


image.png


isContinue = ${isContinue}-------------------lastUpdateTime = ${lastUpdateTime}===============
复制代码

2.2.4 设置循环


image.png


通过【2.2】中设置,可以将基本循环抽取动作的作业可以实现循环。

2.3 创建转换:关键处!!!

思路:

1.通过 MySQL 中 kettle 业务抽取的时间备用表,进行设置最后一次修改更新时间。

2.设置基本循环单次抽取的条数,和基本抽取的 json 格式

3.设置抽取的数据源

4.解析抽取后的 es 中内置的 hits-source 的相关结构

5.成功解析之后,将抽取到的数据进行入库,同时变量获取最新的更新时间保存到 MySQL 中,便于下次更新使用

2.3.1 选择数据源


image.png


select round(unix_timestamp(timetable_dev.modify_time)*1000) as modifyTime, '1' as isContinue from es_kettle.timetable_dev WHERE index_name = 'sta_resource_operation'
复制代码

2.3.2 更新常量


image.png


{"from":0,"size":10,"query":{"bool":{"filter":[{"bool":{"must":[{"range":{"last_update_time":{"from":startTime,"to":null,"include_lower":true,"include_upper":true,"boost":1}}}],"adjust_pure_negative":true,"boost":1}}],"adjust_pure_negative":true,"boost":1}},"sort":[{"last_update_time":{"order":"asc"}}]}
复制代码

2.3.4 参数替换


image.png


2.3.5 设置数据源基本请求信息


image.png


2.3.6 配置解析 hits 结构


image.png


2.3.7 配置解析的结构


image.png


2.3.8 筛选结构


image.png


2.3.9 最后如 ES 库


image.png


2.3.10 根据时间设置循环


image.png


执行 SQL 脚本:

update es_kettle.timetable_dev set modify_time = FROM_UNIXTIME('?', '%Y-%m-%d %H:%i:%S') where index_name = 'sta_resource_operation'
复制代码

以上就是 ES 通过作业,转换进行抽取到新的 ES 结果

3、注意事项

3.1)设置对应字段

3.2)组件之间的关联性

4、最后完成效果


image.png


image.png


转载声明:本文为博主原创文章,未经博主允许不得转载

⚠️注意 ~

💯本期内容就结束了,如果内容有误,麻烦大家评论区指出!

如有疑问❓可以在评论区💬或私信💬,尽我最大能力🏃‍♀️帮大家解决👨‍🏫!

如果我的文章有帮助到您,欢迎点赞+关注✔️鼓励博主🏃,您的鼓励是我分享的动力🏃🏃🏃~

发布于: 刚刚阅读数: 3
用户头像

还未添加个人签名 2022.06.11 加入

Java开发工程师-用博客的方式分享代码

评论

发布
暂无评论
实战 | Kettle实现ES到ES循环增量抽取_kettle_写程序的小王叔叔_InfoQ写作社区