7 个用于机器学习和数据科学的基本 Python 库
推荐:使用NSDT场景编辑器助你快速搭建 3D 应用场景
这篇文章针对的是刚开始使用 Python 进行 AI 的人,以及那些有经验的人,但对下一步要学习什么有疑问的人。我们将不时花点时间向初学者介绍基本术语和概念。如果您已经熟悉它们,我们鼓励您跳过更基本的材料并继续阅读,以了解对图形执行和急切执行等更精细的观点的看法。这篇文章将解释人工智能最重要的 Python 库和包,解释如何使用它们,并介绍它们的优点和缺点。
用于 AI 和 ML 的最广泛使用的 Python 库
将正确的库组合添加到开发环境中至关重要。以下包和库对于大多数 AI 开发人员至关重要。所有这些都可以作为开源发行版免费提供。
Scikit-learn:如果你需要做机器学习
它是什么:Scikit-learn 是一个用于实现机器学习算法的 Python 库。
背景:一位名叫 David Cournapeau 的开发人员最初在 2007 年以学生身份发布了 scikit-learn。开源社区迅速采用了它,多年来已经多次更新它。
特征: Scikit-learn 中的软件包专注于建模数据。
Scikit-learn 包括所有核心机器学习算法,其中包括向量机,随机森林,梯度提升,k 均值聚类和 DBSCAN。
它旨在与 NumPy 和 SciPy(如下所述)无缝协作,以进行数据清理、准备和计算。
它具有用于加载数据以及将其拆分为训练集和测试集的模块。
它支持文本和图像数据的特征提取。
最适合:Scikit-learn 是任何从事机器学习工作的人的必备品。如果您需要实现分类、回归、聚类、模型选择等算法,它被认为是可用的最佳库之一。
缺点:Scikit-learn 是在深度学习起飞之前建立的。虽然它非常适合核心机器学习和数据科学工作,但如果你正在构建神经网络,你将需要 TensorFlow 或 Pytorch(下图)。最佳学习场所:Python 中的机器学习与数据学校的 Scikit-Learn 一起。(注意:Scikit-learn 是最容易学习的 Python 库之一。一旦你精通 Python 本身,Scikit-learn 就很容易了。
NumPy:如果您需要处理数字
它是什么:NumPy是一个 Python 包,用于处理数组或大型同质数据集合。您可以将数组视为电子表格,其中数字存储在列和行中。
背景:Python 在 1991 年推出时最初并不是为了数值计算。尽管如此,它的易用性还是很早就引起了科学界的注意。多年来,开源社区开发了一系列用于数值计算的软件包。2005 年,开发人员 Travis Oliphant 将十多年的开源开发合并到一个用于数值计算的库中,他称之为 NumPy。
特征:NumPy 的核心功能是对数组的支持,它允许您快速处理和操作大型数据集合。
NumPy 中的数组可以是 n 维的。这意味着数据可以是单列数字,也可以是多列和多行数字。
NumPy 有用于执行一些线性代数函数的模块。
它还具有用于绘制和绘制数字数组的模块。
NumPy 数组中的数据是同质的,这意味着它必须全部定义为相同的类型(数字、字符串、布尔值等)。这意味着数据得到有效处理。
最适合:操作和处理数据以进行更高级的数据科学或机器学习操作。如果你正在处理数字,你需要 NumPy。
缺点:由于 NumPy 数组是同类的,因此它们不适合混合数据。你最好使用 Python 列表。此外,当处理超过 500,000 列时,NumPy 的性能往往会下降。最佳学习场所:Linear Regression with NumPy and Python from Coursera。
Pandas:如果您需要操作数据
它是什么:Pandas 是一个同时处理不同类型的标记数据的软件包。例如,如果您需要分析包含数字、字母和字符串数据的 CSV 文件,则可以使用它。
背景:韦斯·麦金尼(Wes McKinney)于 2008 年发行了《熊猫》。它建立在 NumPy 之上(事实上,您必须安装 NumPy 才能使用 Pandas),并扩展该包以处理异构数据。
特征:Pandas 的核心功能是其多样化的数据结构,允许用户执行各种分析操作。
Pandas 有各种用于数据操作的模块,包括重塑、连接、合并和透视。
熊猫具有数据可视化功能。
用户可以执行数学运算,包括微积分和统计,而无需调用外部库。
它具有可帮助您解决丢失数据的模块。
最适合:数据分析。
缺点:在 vanilla Python 和 Pandas 之间切换可能会令人困惑,因为后者的语法稍微复杂一些。熊猫的学习曲线也很陡峭。这些因素,再加上糟糕的文档,可能使其难以上手。最好的学习场所:我从 DeepLearning.AI 开始介绍 pandas。
SciPy:如果你需要为数据科学做数学
它是什么:SciPy 是一个用于科学计算的 Python 库。它包含用于执行计算的包和模块,可帮助科学家进行或分析实验。
背景:在 1990 年代末和 2000 年代初,Python 开源社区开始开发一系列工具以满足科学界的需求。2001 年,他们以 SciPy 的形式发布了这些工具。社区保持活跃,并始终更新和添加新功能。
特征:SciPy 的软件包包括一个完整的数学技术工具包,包括微积分、线性代数、统计学、概率等。
它对数据科学家来说最受欢迎的一些软件包是用于插值、K 均值检验、数值积分、傅里叶变换、正交距离回归和优化。
SciPy 还包括用于图像处理和信号处理的软件包。
Weave 功能允许用户在 Python 中用 C / C++编写代码。
最适合:SciPy 是数据科学家最好的朋友。
缺点:一些用户发现 SciPy 的文档缺乏,并批评它的几个软件包不如 MatLab 中的类似软件包。
最佳学习场所:Ahmad Bazzi 的 SciPy 编程。
如果你需要做机器学习:TensorFlow vs. PyTorch
TensorFlow 和 PyTorch 执行与深度学习相关的相同基本任务:它们使获取数据,训练模型和生成预测变得容易。从人脸识别到大型语言模型,许多神经网络都是使用 TensorFlow 或 PyTorch 进行编码的。这些库曾经在前端和后端都明显不同。随着时间的推移,他们围绕同一套最佳实践趋同。
尽管如此,人工智能社区内部仍在争论哪个是最好的。2015 年发布的 TensorFlow 是第一个出现在现场。它在商业人工智能和产品开发中占主导地位,但许多用户抱怨它的复杂性。
PyTorch 于 2016 年发布,被广泛认为它更容易学习,实施起来更快。它是学术界的最爱,并在工业界稳步普及。但是,众所周知,它在缩放方面很困难。
选择哪个?
TensorFlow 仍然是业界占主导地位的深度学习库。这部分是由于惯性,部分原因是 TensorFlow 在处理大型项目和复杂工作流程方面比 PyTorch 更好。它能够处理针对商业部署进行扩展的 AI 产品,使其成为产品开发的最爱。
如果你只是跳入深度学习,并希望专注于快速构建和原型设计模型,PyTorch 可能是更好的选择。请注意,根据你的工作要求和公司技术,你可能有一天必须学习 TensorFlow(特别是如果你梦想的工作是在 TensorFlow 的故乡谷歌)。
在下面详细了解这两个库的优缺点。
TensorFlow
这是什么? TensorFlow 是一个端到端的开源库,用于开发、训练和部署深度学习模型。
背景: TensorFlow 最初由 Google Brain 于 2015 年发布。最初,它的前端不是用户友好的,并且它具有冗余的 API,这使得构建和实现模型变得繁琐。随着时间的推移,其中许多问题已经通过更新以及通过将 Keras(见下文)集成为默认前端而得到解决。
特征: TensorFlow 有许多用于构建深度学习模型并将其扩展以进行商业部署的软件包。
TensorFlow 用户可以调用 Dev Hub 和 Model Garden 中的数百个预先训练的模型。开发人员中心包含即插即用模型,而模型花园适用于习惯于进行自定义的更高级用户。
它在使用内存方面非常有效,可以并行训练多个神经网络。
TensorFlow 应用程序可以在各种硬件系统上运行,包括 CPU、GPU、TPU 等。
TensorFlow Lite 针对移动和嵌入式机器学习模型进行了优化。
用户可以在 Tensorboard.dev 上自由上传和分享他们的机器学习实验。
最适合:大规模构建生产就绪的深度学习模型。
缺点:一些用户仍然抱怨前端相当复杂。您可能还会遇到 TensorFlow 执行缓慢的批评。这主要是 TensorFlow 1.0 的遗留问题,当时它默认以图形模式执行操作。TensorFlow 2.0 默认为预先执行模式。
最佳学习场所:来自 DeepLearning.ai 的 TensorFlow 开发人员专业证书。
Keras:
它是什么:Keras 是一个适合初学者的工具包,用于处理神经网络。它是 TensorFlow 的前端接口。
背景:谷歌工程师 Francois Choillet 于 2015 年发布了 Keras,作为许多深度学习库的 API。截至 2020 年,Keras 是 TensorFlow 独有的。
特征: Keras 处理在 TensorFlow 中构建神经网络的高级任务,因此包含激活函数、层、优化器等基本模块。
Keras 支持原版神经网络、卷积神经网络和递归神经网络以及实用程序层,包括批量归一化、辍学和池化。
它旨在简化深度神经网络的编码。
最适合:开发深度学习网络。
缺点:它仅适用于 TensorFlow 用户。如果你使用 TensorFlow,你就是在使用 Keras。
最佳学习场所: IBM 的 Keras 深度学习和神经网络简介。
PyTorch
它是什么:PyTorch 是 Facebook AI 研究实验室对 TensorFlow 的回答。它是一个开源的通用库,用于机器学习和数据科学,特别是深度学习。
背景: Facebook 在 2016 年发布了 PyTorch,比 TensorFlow 晚了一年,它迅速受到对快速原型感兴趣的学者和其他研究人员的欢迎。这是由于其简化的前端以及其默认模式立即执行操作的事实(而不是像 TensorFlow 那样将它们添加到图形中以供以后处理)。
特征:PyTorch 有许多类似于 TensorFlow 的特性。事实上,自推出以来的几年里,每个库都进行了更新,以包含用户最喜欢的功能。
PyTorch 有自己的预训练模型库。PyTorch Hub 面向想要尝试模型设计的学术用户,生态系统工具包含预先训练的模型。
PyTorch 具有内存效率,可以并行训练多个模型。
它支持多种硬件类型。
最适合:深度学习模型的快速原型设计。Pytorch 代码运行快速高效。
缺点:一些用户报告说,PyTorch 在处理大型项目、大型数据集和复杂的工作流程时遇到了困难。构建要大规模部署的 AI 产品的开发人员可能更喜欢 TensorFlow。
最佳学习地点:来自 PyTorch.org 的 PyTorch 教程。
结论
Python 库的成熟是它在 AI 社区中如此受欢迎的主要原因之一。它们可以轻松地将 Python 扩展到远远超出其原始设计的任务。一旦你牢牢掌握了 Python 语言和与你的工作相关的库,你将能够为广泛的应用程序构建、训练和迭代机器学习模型。
版权声明: 本文为 InfoQ 作者【3D建模设计】的原创文章。
原文链接:【http://xie.infoq.cn/article/470a87bbb0c14b1a960cd6284】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论