ETL 中如何执行 Python 脚本
Python 的解读
Python 是一种高级、通用的编程语言,由荷兰程序员吉多·范罗苏姆(Guido van Rossum)于 1990 年代初设计并发布。Python 的设计哲学强调代码的可读性和简洁性,它的语法清晰且表达力强,使得开发者能够以更少的代码行数表达复杂的概念。这使得 Python 成为了编程入门者的理想选择,同时也被专业开发者广泛用于快速开发各种应用程序。
Python 作为一个胶水语言具有简单易学、高可读性、丰富强大的库与框架、跨平台支持、动态类型、广泛的社区支持、适用领域广泛,可以通过 Python 丰富的第三方库达到你想要的任意结果。而 ETLCLoud 连接 python 之后可以增加数据获取来源,也可以对数据进行自定义的清理和处理。
ETL 中 Python 脚本使用和注意细节
配置抽取数据到 Python 脚本中然后修改最后输出的流程
库表输入配置
选择完数据库和表之后,配置字段非必要配置内容
如果要配置点击下一步,sql 语句可以自己添加条件
字段配置
Python 命令要根据自己的 Python 选择,有的要填 Python3。平台 Python 环境使用的是用户自身的 Python 环境,所以缺库少什么东西在自己本地下载安装就好。
脚本来源:当我们选择 Python 文件之后会显示"Python 文件"的输入框,填写 Python 文件路径就好,不过下面也有提示,使用 Python 文件后,后面编写的 Python 脚本就没有用了
输入参数:这个主要是学习 ETL 参数的使用。一个是变量的设置,另一个是变量在节点获取方法。我简单说一下变量的使用方法,局部变量和全局变量都是 ${局部变量 id} 这种方式引用的,公共变量的使用是这样子的 {config.变量 id} 。
而我们的上一节点数据属于局部变量,以这个为例就算不输入 ${data},还是可以输出数据 。如果不是上一节点的数据就要保存到全局变量里然后设置变量参数
返回数据编码:根据自己的编码来就行,不过要注意一点,之前有人反馈即使设置了 utf-8 和 gbk 输出的都是乱码,这就要注意设置 Python 命令了,这个时候设置一下 Python3 就好。具体根据自身 Python 版本来。
执行 Python 脚本
输出完成,系统转给 Python 的是个 list。不一定所有的数据都是 list,各位拿来用的时候可以先看一下
拿取数据演示
查看数据输出
总结
在 ETLCloud 中 Python 脚本使用的是你自己系统的环境,平台是不带 Python 环境的。Python 命令填写,要根据自己版本来填写,如果不知道用哪个版本,就使用 3.12 版本,其他的就正常使用 Python 就行。在 Python 脚本里,可以根据自己的需要将数据加工成想要的。
评论