Amazon Glue 版本 2.0 将作业启动时间缩短了 10 倍,现已全面开放!

好消息!Amazon Glue 版本 2.0 将 Spark ETL 作业的启动时间缩短了 10 倍,此版本现已全面开放啦!
Amazon Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松地准备和加载数据以供分析。Amazon Glue 采样“无服务器”架构 – 您无需预置或管理任何资源,并且只需在 Amazon Glue 主动运行时为资源付费。启动延迟的减少可缩短总体作业完成所需时间,支持客户的微批处理和时间敏感型工作负载需求,并通过支持交互式脚本开发和数据探索来提高企业生产力。
Amazon Glue 版本 2.0 提高了作业启动延迟的可预测性并减少了开销。此外,Amazon Glue 版本 2.0 的 Spark 作业将以 1 秒为增量计费,最低账单周期缩短 10 倍(从最短 10 分钟降至最短 1 分钟)。因此,客户现在能够以更高的性价比来运行微批处理、高时效性、交互式的工作负载。客户可以运行微批处理作业来快速加载数据湖、数据仓库、数据库,以及实现实时分析。作业启动时间缩短之后,客户可以更可靠地运行 SLA 驱动的数据管道。
此外,缩短作业启动时间可实现交互式的数据探索和试验。Amazon Glue 版本 2.0 还新增了从 Wheel 文件或存储库安装 Python 模块的功能。
工作原理
下面我们来看如何在亚马逊云科技管理控制台上使用此功能。这项新功能的使用非常简单 – 您可以按照如下示例,创建新的 Amazon Glue Spark ETL 作业或将现有的 Amazon Glue Spark ETL 作业迁移到 Glue 版本 2.0。

我创建了一个简单的 Amazon Glue 作业,以跨不同的 Amazon S3 存储桶复制 .csv 文件。
AmazonGlue 版本 1.0

您可以看到 Amazon Glue 版本 2.0 的启动时间缩短了 10 倍。
AmazonGlue 版本 2.0

Amazon Glue 2.0 已在提供 Amazon Glue 的所有区域开放,您可以扫描原文链接里边的二维码参阅我们最新的文档和定价页面以了解更多详细信息哦~
评论