AWS 上关于云计算,大数据,人工智能的介绍
序
本文主要介绍了 AWS 上对云计算,大数据,人工智能的理解以及三者之间的关系的简单解释
一、什么是云计算?
https://aws.amazon.com/cn/what-is-cloud-computing/
云计算通过互联网按需提供 IT 资源,并且采用按使用量付费的定价方式。您可以根据需要从诸如亚马逊云科技 (Amazon Web Services) 之类的云计算服务提供商那里获得技术服务,例如计算能力、存储和数据库,而无需购买、拥有和维护物理数据中心及服务器。
云计算的优势
敏捷性
知道什么叫云计算之后,你是否准备好开始使用云计算呢?云计算技术可以使您轻松使用各种技术,其敏捷的优势可以帮助您更快地进行创新,并构建几乎任何可以想象的东西。您可以根据需要快速启动资源,从计算、存储和数据库等基础设施服务到物联网、机器学习、数据湖和分析等。依托云计算的优势,您可以在几分钟内部署技术服务,并且从构思到实施的速度比以前快了几个数量级。这使您可以自由地进行试验,测试新想法,以打造独特的客户体验并实现业务转型。
弹性
借助云计算技术弹性的优势,您无需为日后处理业务活动高峰而预先过度预置资源。相反,您可以根据实际需求预置资源量。您可以根据业务需求的变化立即扩展或缩减这些资源,以扩大或缩小容量。
节省成本
利用云计算技术,您可以将资本支出(如数据中心和物理服务器的费用)转变为可变费用,并且只需为使用的 IT 付费。此外,由于规模经济的效益,可变费用比您自行部署时低得多。
在几分钟内进行全局部署
借助云计算技术,您可以将业务扩展到新的地理区域,并在几分钟内进行全局部署。例如,亚马逊云科技的基础设施遍布全球各地,因此您只需单击几下即可在多个物理位置部署应用程序。将应用程序部署在离最终用户更近的位置可以减少延迟并改善他们的体验。
云计算的类型
基础设施即服务 (IaaS)
IaaS 包含云 IT 的基本构建块。它通常提供对网络功能、计算机(虚拟或专用硬件)和数据存储空间的访问。IaaS 为您提供最高级别的灵活性,并使您可以对 IT 资源进行管理控制。它与许多 IT 部门和开发人员熟悉的现有 IT 资源最为相似。
平台即服务 (PaaS)
PaaS 让您无需管理底层基础设施(一般是硬件和操作系统),从而可以将更多精力放在应用程序的部署和管理上面。这有助于提高效率,因为您不用操心资源购置、容量规划、软件维护、补丁安装或与应用程序运行有关的任何无差别的繁重工作。
软件即服务 (SaaS)
SaaS 提供了一种完善的产品,其运行和管理皆由服务提供商负责。在大多数情况下,人们所说的 SaaS 指的是最终用户应用程序(如基于 Web 的电子邮件)。使用 SaaS 产品,您无需考虑如何维护服务或管理基础设施。您只需要考虑如何使用该特定软件。
aws 上架构图样例
使用 AWS Fargate、AWS 和网络负载均衡器在亚马逊 ECS PrivateLink 上私下访问容器应用程序
二、什么是大数据?
https://www.amazonaws.cn/knowledge/what-is-big-data/
大数据技术与应用,指的是将大数据采集、大数据预处理、大数据存储、大数据分析 4 类核心技术,应用于教育、零售、交通、金融、家居、生物医学等行业应用场景,以此带动市场营收、激活行业创新,精益客户管理,赋能组织决策等
大数据存储
大数据存储,表示将巨量、复杂、难于处理的数据集,持久保存到计算机中的存储方式。相比于传统数据存储模式,大数据存储能够应对多样化来源的结构化数据和非结构化数据;大数据存储对存储系统架构设计进行持续升级,其中以分布式存储取代集中式存储,并充分权衡安全性、稳定性、集成度、可扩展性、性能、成本、自动修复等多维因素,以满足应用层面计算性能的高需求,以及保障读写的高吞吐量。其主流存储引擎涵盖 HDFS, HBASE, KUDU 等。
大数据平台是什么
大数据平台可以处理海量数据存储、计算不间断流数据、实时计算等场景。该平台,具备容纳巨量数据、快速处理、加持数据分析、辅助数据科学家决策等功能,能够应对海量数据计算/存储、流数据实时计算等场景需求;能够一站式集成多项大数据,高效分发和处理海量数据,并助力行业客户构建和部署大数据等应用程序。典型的大数据平台包括 Hadoop 系列、Flume/Kafka、Spark、Storm、Flink 等。
大数据分析六个核心技术
可视化分析
可视化分析是一项对复杂数据进行分析的技术;其应用原理是使用自动化分析技术,来发掘不同数据源的关联价值;进而使用可视化技术,直观地展示关联数据的动态变化趋势。
预测性分析
预测性分析是一种通过分析当前历史数据,来预判未来事件走向的分析技术。其工作原理是先根据一组输入变量建模,再训练模型预测未来数据。常见类别涵盖回归技术、ML 技术、决策树等。
数据质量管理
数据质量管理,是一种对数据从计划、集成、维护、应用等全生命周期管理的过程,并在整个周期中通过一系列管理活动来提升数据质量。一般而言,数据质量管理可分为人工比对、程序比对、统计分析 3 个层次。
数据挖掘算法
数据挖掘算法,指的是依据数据特点进行数据分析,随后有针对性地创建数据挖掘模型的一组试探法和算法类别。应用数据挖掘算法,能够发掘巨量数据中的潜在价值。常见算法包含决策树算法,k-均值聚类等。
语义引擎
语义引擎由 ML 提供支持可以极其快速有效地处理大量数据;用户可以通过语义引擎在无限大的数据集里快速找到高质量信息;语义引擎已经远超传统分析工具,在一定意义上来说,它可以根据用户的意图来快速高效处理大量数据。而且对于需要定期进行海量信息挖掘的用户来说,语义引擎效能显著
数据仓库
数据仓库,又称企业数据仓库,信息的中央存储库,是为企业所有级别的决策提供数据支持的战略集合,也是商业智能的核心组件,主要用于汇总报告和数据分析的系统性技术。通过集成不同时段的具体数据,数据仓库可以为整个企业输出员工分析报告。
AWS 数据湖方案
三、什么是人工智能
https://aws.amazon.com/cn/machine-learning/what-is-ai/
人工智能 (AI) 是致力于解决通常与人工智能相关联的认知性问题的计算机科学领域,这些问题包括学习、问题解决和模式识别等。提起人工智能(通常缩写为“AI”),人们可能会想到机器人或未来的场景。但是,AI 不仅仅局限于科幻小说中的机器人,还迈进了现代非虚构的高级计算机科学领域。这一领域的杰出研究人员 Pedro Domingos 教授将机器学习划分为“五大学派”,即起源于逻辑和哲学的象征主义学派、源于神经系统科学的联结主义学派、与进化生物学相关的进化论学派、结合统计学和概率学的贝叶斯定理学派以及起源于心理学的类比推理学派。最近,由于统计计算效率的进步,贝叶斯定理学派在名为“机器学习”的领域取得了多个方面的进展。同样,由于网络计算的进步,联结主义学派在名为“深度学习”的一个子领域也取得了进展。机器学习 (ML) 和深度学习 (DL) 都属于源自人工智能学科的计算机科学领域。从广义上来说,这些技术分为“有监督”和“无监督”学习技术,其中“有监督”使用包含预期输出的培训数据,而“无监督”使用不包含预期输出的培训数据。数据越多,AI 就会“更加智能”,并以更快的速度学习;而且,企业每天都会生成数据,为运行机器学习和深度学习解决方案提供“燃料”.
Machine Learning
“机器学习”这一名称通常应用于一些用于模式识别和学习的贝叶斯技术。从核心上讲,机器学习是各种算法的集合,这些算法可根据记录的数据进行学习和预测、在不确定情境下优化给定效用函数、从数据中提取隐藏结构并用简洁的描述对数据进行分类。在显式编程过于僵化或不切实际的情况下,通常会部署机器学习。与软件开发人员为尝试根据给定输入生成特定程序代码输出而开发的常规计算机代码不同,机器学习使用数据生成统计代码(ML 模型),它将根据从先前的输入(在使用监督技术的情况下还包括输出)示例中识别出的模式输出“正确结果”。ML 模型的准确性主要取决于历史数据的质量和数量。
有了合适的数据,ML 模型就可以使用数十亿的示例来分析高维度问题,从而找到能够根据给定输入预测结果的最佳函数。ML 模型通常会在预测及其整体性能方面提供统计置信度。在您决定是使用 ML 模型还是任何个人预测时,此类评估得分非常重要。
什么是深度学习?
深度学习是机器学习的一个分支,包含各种分层算法,目的在于更好地了解数据。 与较为基础的回归算法不同,这些算法不再局限于创建一组可解释的关系。 相反,深度学习依靠这些非线性算法层来创建能够根据一系列因素进行交互的分布式表示。 对于大型培训数据集,深度学习算法开始能够识别元素之间的关系。 这些关系可能存在于形状、颜色、文字等元素之间。 由此,人们便可以使用该系统创建预测了。 在机器学习和人工智能中,深度学习之所以具有强大的功能,是因为该系统能够识别的关系超出了人类可在软件中实际进行编码的关系,且还能识别出人类甚至无法意识到的关系。 经过充分的培训后,算法网络便可以开始预测或解释非常复杂的数据。
AIGC 是什么?
AIGC 又称生成式 AI (Generative AI),是继专业生产内容(PGC, Professional-generated Content)、用户生产内容(UGC, User-generated Content)之后的新型内容创作方式,可以在对话、故事、图像、视频和音乐制作等方面,打造新的数字内容生成与交互形式。与所有人工智能技术一样,AIGC 的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的大模型,通常被称为基础模型(Foundation Models)。如今以基础模型为驱动的 AIGC 应用迭代速度呈现指数级发展,从由 Stable Diffusion 文生图模型驱动的 AI 作画应用,再到以大语言模型(LLM)驱动的智能聊天机器人,深度学习模型不断完善、开源预训练基础模型的推动以及大模型探索商业化的可能,都在成为这场人工智能颠覆性革命的主要驱动力。
AWS ML 的技术栈
总结
数据、算力、算法是驱动 AI 发展的三驾马车,要实现 AI 的发展,这三者缺一不可,但每一项的发展都需要企业投入大量的资金,尤其是前期的硬件投资更是占企业投入资金的大多数。所以会有需要云计算的场景,依靠云计算 敏捷性,弹性,节省成本等特性,同时又需要大数据 进行数据清洗,加工,数据质量保证以及管理, 最后才能用到算法训练来实现 AIGC 等人工智能场景。
版权声明: 本文为 InfoQ 作者【WuKongCoder】的原创文章。
原文链接:【http://xie.infoq.cn/article/86181a00605ab494a948ac891】。文章转载请联系作者。
评论