15 年磨一剑,亚马逊云科技数据产品掌门人 Swami 揭秘云原生数据战略的三大关键要素
2022 亚马逊云科技 re:Invent 全球大会正在拉斯维加斯如火如荼进行中,亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士发表了“数据与机器学习如何助力企业构建端到端的数据战略”的主题演讲来开启第三天的日程。
Swami 博士重点介绍了亚马逊云科技在数据库、数据分析和机器学习领域的最新创新,以及这些创新如何帮助企业构建基于“面向未来的数据基础设施”、“跨组织的数据链接”和“数据普惠化”三个核心要素的端到端数据战略,从而帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据推动下一波创新。
Swami 博士首先通过人类大脑是如何通过数据分析产生创造性的想法做类比,企业数据分析与人脑数据分析有相似之处,但又有很大的不同。他指出,与人脑不同,企业数据处理和分析中往往会遇到一些挑战,主要包括:
没有一个集中的存储库来收集所有数据,这通常意味着它会导致跨整个组织的数据孤岛和数据不一致,清理海量数据并将其存储在可访问的位置需要花费大量的时间和精力;
企业数据并不是自动化处理的,企业必须在数据基础设施中建立自动化机制来减少手动重复性操作和成本高昂的更新;
企业数据也不会在应用间自由流动,不像大脑中神经传输路径一样,企业需要建立复杂的通道来将数据移动到正确的位置,并且保证需要访问的个人随时随地能访问到;
数据也不容易被分析或者可视化,企业很难快速找到数据之间的联系,从而激发创意和洞察力。
“我坚信数据是现代发明的起源,” Swami 博士提到,“为了更好地利用数据来提升客户体验,推动业务创新,今天的组织需要构建合适的数据战略,以数据推动决策。”
亚马逊云科技以超过 15 年的数据创新经验赋能企业构建合适的数据战略
在探索适合企业的数据战略的道路上,企业并不孤单。亚马逊云科技有着超过 15 年的数据领域创新经验。我们一直在尝试通过创新的方法去改进数据存储和分析的过程:我们在云中提供了第一个可扩展存储服务 S3、发布了云上第一个专门构建的数据库 DynamoDB 和第一个完全托管的数据仓库服务 Redshift 以及更多持续发布的新功能和新服务,帮助客户更容易地创建、存储和分析数据。
今天,全世界有超过 150 万家公司来亚马逊云科技寻求数据服务上的帮助,包括数据库、数据分析和机器学习服务。像 Toyota(丰田)、Coca-Cola(可口可乐)、 Capital One 等等,这些知名公司都用我们的服务来建立完整的数据战略。还有 Bristol Myers Squibb 通过运用我们的数据服务,把单细胞数据应用在他们的诊断和开发里面。此外,Hyundai(现代)也用我们的平台来分析他们的机器学习模型,极大地降低了他们的机器学习时间。
Swami 博士指出,基于亚马逊云科技的经验,我们认为数据战略有三个关键核心要素:
1. 建立面向未来的数据基础设施
面向未来的数据基础设施,应具备四个要素:
1.需要有正确的数据库工具来应对所有类型的工作负载;
2.可以在大规模的情况下进行高性能的运行;
3.不需要我们做非常多的重复工作;
4.需要高可靠性和高伸缩性。
2. 实现安全高效的跨组织数据链接
同样,企业可以使用一个合作系统来连接孤立的团队,为重要资源创造快捷安全的访问途径,使用正确数据治理系统,借助高质量的工具和数据来推动未来的增长。
3. 通过工具和教育实现数据普惠化
亚马逊云科技预计到 2029 年,人工智能劳动力将增加 100 万个工作岗位,但培育合适的技能和人选来填补这些空缺将是一项重大挑战。亚马逊云科技正在帮助社区学院和 MSIs 加大教育力度,推出新的亚马逊云科技机器学习大学教育培训计划,提供动手培训课程,为培育新一代劳动力做好准备。
此外,低代码和无代码工具对许多企业来说也是一个重要辅助工具,Amazon SageMaker Canvas 还为用户提供了一个无代码选项,可以帮助用户无需编写代码即可实现基于机器学习的预测。
基于以上端到端数据战略的三个核心要素,亚马逊云科技帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据推动下一波创新。Swami 博士在他的演讲中发布了多项亚马逊云科技数据库、数据分析和机器学习服务的功能升级与新特性。
一、强大的云原生数据能力,以帮助企业扩展其数据库和数据分析服务,并确保数据安全与数据质量
1. Amazon Athena for Apache Spark 更简易直观的数据分析服务
Swami 博士指出,亚马逊云科技推出的 Amazon Athena 服务以其易用性而广为流行,已有数以万计的客户注册。为了帮助用户以一种更直观的方式来运行复杂的数据分析,让用户将更多的时间用于洞察,而不是等待结果,我们推出 Amazon Athena for Apache Spark ,这项服务不到 1 秒钟的时间就可以运行交互式的 Spark 数据分析应用,它比其他类似的 Spark 解决方案快 75 倍。
2. Amazon DocumentDB Elastic Clusters 完全托管型解决方案
Swami 博士表示,亚马逊云科技为企业提供所需工具来帮助提供可扩展性和处理能力。接下来,他发布了 Amazon DocumentDB Elastic Clusters,这是一个完全托管的数据库扩展特性,可以帮助 DocumentDB 根据流量需求轻松实现上下扩展。它可以在几分钟内弹性扩展工作负载,甚至可以自动管理底层基础设施,降低运维的时间成本。
3. Amazon Redshift Multi-AZ 高可用性与高可靠性
Swami 博士指出,可靠性和安全性是各企业选取云服务商的关键考虑因素。“你需要采取适当的保障措施。”他强调了亚马逊云科技构建此类安全可靠服务的悠久历史。然而客户总是有着更多需求,尤其是在应用程序和数据库方面。因此,新的 Amazon Redshift Multi-AZ 功能将有助于为 Mission-critical 的分析任务工作负载提供高可用性和可靠性。
4. Tusted Language Extensions for PostgreSQL 快速集成数据
为了帮助提升 PostgreSQL 扩展程序的安全性,Swami 博士宣布推出 Trusted Language Extensions for PostgreSQL 服务,这是一个新的开源项目,支持 Amazon RDS 和 Aurora 上的 PostgreSQL 扩展程序。这些语言和延伸可以让你非常安全地把它加入到你数据的基础设施上,同时也可以得到亚马逊云科技的认证。有了这样的解决方案,我们的客户就可以非常快速地集成他们的数据,还可以基于他们核心的数据库来开发应用。亚马逊云科技将会不断地向开源社区做新贡献。
5. Amazon GuardDuty RDS Protection 智能化威胁检测,守护数据安全
为了保护 RDS 数据库的安全,亚马逊云科技还宣布推出 Amazon GuardDuty RDS 保护解决方案。只要一个点击,Amazon GuardDuty RDS Protection 就可以在 Amazon Aurora 上面运行基于机器学习的智能威胁检测来保护你的数据,这也为企业数据保护提供了基础,让你可以在不同的数据存储位置中把这些连接起来。
6. Amazon Glue Data Quality (Preview) 更好地管理数据湖质量
提到数据湖与数据质量,Swami 博士表示,保持数据质量需要各种手动创建的数据质量规则。为了更好地帮助客户来管理数据湖中的数据质量,Swami 博士宣布推出 Amazon Glue Data Quality 解决方案。
Amazon Glue Data Quality 可以进一步萃取数据价值,保证数据治理。每天从数据中自动建立数据质量规则,只需花几个小时的时间就可以产生新鲜的高质量数据,以便客户每天都能做出更明智的关键决策,这项服务可以将人工工作从几天减少到几小时。
7. Centralized Access Controls for Redshift Data Sharing 简易且安全的数据访问权限管理
为了简化 Redshift 数据访问权限管理,Swami 博士宣布推出 Centralized Access Control for Redshift Data Sharing 平台。基于这个平台,你可以非常容易地在内部运行一个集中的数据管理,通过这项服务你可以管理不同的查询,也可以管理获取某一种数据的权限,这也有助于维护数据安全。客户能够在运行权限管理的情况下进入各个不同的数据分布。
8. Amazon Redshift auto-copy from S3 简化数据分析与移动
Swami 博士指出,客户正在寻找更简单的方法来移动和分析大数据,亚马逊云科技希望做到这一点。Amazon Redshift auto-copy from S3 是一个新的自动复制功能,使创建和维护简单的数据接收管道变得更加容易。
二、增加了数据治理和地理空间工具的机器学习平台,助力机器学习普惠化
1. ML governance with Amazon SageMaker 三项新功能上线
现在越来越多的企业开始利用机器学习来进行数据管理,而机器学习技术又有着极高的技术门槛,因此很多客户都需要募集数据科学家和数据工程师,耗费人力与物力。此外机器学习模型也难与他人共享。如果有一项工具可以解决这些难题,将是客户的绝佳助力,因此我们推出 Amazon SageMaker。
Amazon SageMaker 推出五年来,亚马逊云科技一直稳步地实现 SageMaker 的产品升级,并使其成为企业最广泛使用的 ML 平台之一。Swami 博士宣布,Amazon SageMaker 将推出三个机器学习的新功能,来简化访问控制,增强端到端机器学习部署的透明度、模型治理和可审计性。
三个机器学习的新功能分别是:Role Manager、Model Cards 和 Model Dashboard。SageMaker Role Manager 通过自动策略创建工具帮助组织为用户定义关键权限;Model Cards 主要是为 ML 模型文档创建一个中心权威位置;Model Dashboard 为组织提供了 ML 模型性能的可见性和统一监控。Swami 博士表示:“这些是非常强大的治理功能,将帮助您构建 ML 治理责任,以解决权力权限共享问题。”
2. Geospatial ML with Amazon SageMaker (Preview) 模型预测实现在地图上的可视化
近年来,地理空间数据在许多行业中的普及率大幅增长。但是处理地理空间数据也同样会面临各种挑战,为了应对这些挑战,亚马逊云科技宣布 Amazon SageMaker 现在支持 Geospatial ML,只需单击几下即可访问各种不同的数据,根据模型生成的预测也可以在地图上可视化。
同时,新的地理空间功能将 SageMaker 的 ML 模型构建能力范围扩展到新兴的地理空间工程领域,用于灾害应对、城市规划、物流和运输等应用。Swami 博士说:“长期以来,我们一直致力于使 SageMaker 成为一个能够容纳多种数据类型的平台,而您在地理空间中看到的绝对是正确的方向。”
3. Provided40NewDataConnectorstoDataWrangle 更多的数据连接器上线
为了帮助用户更好的使用外部数据执行 ML 模型的构建与训练,Swami 博士宣布亚马逊 SageMaker 的几十个新数据连接器补充了为 LinkedIn 和 Google Ads 等平台以及 Snowflake、Salesforce 和 SAP 等其他应用程序推出的其他 22 个新连接器。Swami 博士说:“今天,Amazon SageMaker Data Wrangle 再次新增 40 多种新的数据源,可将汇总和准备机器学习 (ML)数据所需的时间从数周缩短至几分钟。”
4. Amazon Machine Learning University now provides educator training 长期践行数据普惠化
Swami 博士强调,让数据普及,这是一个非常重要的行动,我们最终的目的是将数据普惠化。亚马逊云科技正在帮助社区学院和 MSIs 加大教育力度,推出新的亚马逊云科技机器学习大学教育培训计划,提供动手培训课程,帮助下一代构建者做好准备。此外,低代码和无代码工具对许多企业来说也是一个重要的补充,Amazon SageMaker Canvas 还为用户提供了一个无代码选项,可以帮助用户无需编写代码即可实现基于机器学习的预测。
最后,Swami 博士指出:“所有的设计灵感、创新灵感都是从一个点子开始,然后大家一起努力,为下一步的创新再去做努力。”我们用 16 年来的云计算技术积淀,去激发一个点子、推动下一步创新,亚马逊云科技所有的数据服务都致力于帮助您的企业更好地利用数据发挥关键作用。
阅读原文:https://dev.amazoncloud.cn/column/articleDetail?id=638d78687f821435539ca793
评论