轻松理解 20 种常用 AI 算法

作者：Baihai IDP

2022 年 9 月 06 日
北京
本文字数：1993 字
阅读完需：约 7 分钟

常用 AI 算法知多少？他们的主要特征是什么？分别用在什么场景？

如何用 1-3 句话，让小白也能充分理解各算法？

本文梳理了 20 中常用 AI 算法极其简明解释，快来一起挑战“算法之王”呀！

1) 线性回归（Linear Regression）：一种基于过去已经发生的事件来预测未来可能发生的事件的方法。例如，你能够根据过去的收入，使用线性回归来预测你未来的收入。

2) 逻辑回归（Logistic Regression）：一种用于预测事件发生概率的统计分析。它是一种当因变量为二元（变量值只有 0 和 1，或这是或否）时使用的回归分析。

3) 支持向量机（Support Vector Machines）：一种可以从例子中学习并做出预测的模型。它常用于将事务分类。

4) 决策树（Decision Trees）：一种通过穷举出所有可能的选项来帮助你做出决定的方法。构建出决策树后，你可以通过查看所有可能的结果来选出最优解。

5) 随机森林（Random Forests）：用于预测事物。它通过查看一系列可能影响你尝试预测的事件的不同场景来学习，之后，再根据所学到的知识进行猜测。

6) 梯度提升算法（Gradient Boosting）：一种将多个较弱模型结合起来，创建出更强模型的技术。较弱模型使用梯度下降算法开发，最终模型是所有较弱（相对最终模型而言）模型的加权组合。

7) 神经网络（Neural Networks）：一种对数据中复杂模式（pattern）进行建模的机器学习算法。神经网络和其他机器学习算法一样，都可以学习识别输入数据的模式，但不同的是，神经网络由大量互相连接的处理节点（或者将其称为神经元）组成。

8) 主成分分析（Principal Component Analysis，简称 PCA）：一种用于查找数据模式的技术。它查看数据，并从中查找数据变化最大的方向。

9) 线性判别分析（Linear Discriminant Analysis，简称 LDA）：一种找出对预测目标变量最重要的一组变量（特性）的机器学习技术。LDA 是一种可以通过分析数据来预测行为结果的方法，被用于识别数据中不同变量间的关系，然后再使用这些关系来预测未来。

10) K 均值聚类（K-Means Clustering）：机器学习中一种将数据进行分组，以便更可能找出数据之间的关联的技术。这是一种通过找到最近的数据点并将它们分成一组，来协助对数据点（例如，数据库中的记录）进行分组的方法。

11) 层次聚类（Hierarchical Clustering）：是一种将数据项组合起来以使其更易理解的方法。它的工作原理是将数据分成组，再查看这些组之间的关系。它是一种在分层结构中将数据点组合在一起的方法，该算法从每个数据点自己所在的组开始，然后再与最近的组，合成一个新组，直到数据中只有一个组，即一个根节点。

12）DBSCAN（Density-Based Spatial Clustering of Applications with Noise）：一种能将数据点聚集起来的算法。它通过分析数据点的密度，将相近的数据点分为一组。

13）高斯混合模型（Gaussian Mixture Models）：它使用线性模型和非线性模型的混合模型来预测结果。它是一种预测一组对象行为的机器学习模型。此模型使用一组输入数据点来预测一组新输入数据点的行为。

14) 自动编码器（Autoencoders）：可以学习到输入数据的隐含特征，称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称为解码（decoding）。它是一种用于学习如何压缩数据的神经网络。该算法的目标是学习一种较源数据占用空间更小的表示（编码）方法。

15) 孤立森林（ Isolation Forest）：用于检测数据中的异常值。它通过随机选择数据点并创建决策树来工作。如果该点是异常值，则将更容易地将其与其余数据分隔开。

16) 单类向量支持机（ One-Class SVM）：类似孤立森林，单类向量支持机同样被用来查找异常值：异常值的评估标准就是创建一条最能将数据分成两组的直线，任何远离这条直线的数据点都会被判别为异常值。

17) 局部线性嵌入（Locally Linear Embedding）：一种用于数据降维的技术。它通过找到接近原始数据的另一数据的线性表示来做到这一点。局部线性嵌入是一种将数据集表示为空间中点序列的方法。这样，你可以更轻松地看出数据点之间的关系，并做出更好地预测。

18) t-SNE（t-distributed stochastic neighbor embedding）：通过降低数据的维度来帮助我们可视化数据。t-SNE 的工作原理是创建数据点的映射，然后找到在低维空间中表示这些点的最佳方法。

19) 独立成分分析（Independent Component Analysis，简称 ICA）：用于发现隐藏在数据中的模式（pattern），ICA 通过查看数据中不同变量之间的关系来做到这一点。这是一种从混合信号中分离出各种单个信号的技术。

20) 因子分析：用于减少找到模式（pattern）需要分析的数据量。它通过识别有相似行为的数据元素组成的组来做到这一点。此外，它还用于减少展示模式需要分析的数据量，它通过识别具有相似行为的数据元素组成的组来实现这一点。实际上，它是一种用来理解数据集的哪些特征对预测结果必不可少的方法。

本文主要翻译自 Anil Tilbe，Top 20 Machine Learning Algorithms, Explained in Less Than 10 Seconds Each.

发布于: 刚刚阅读数: 3

Baihai IDP

关注

还未添加个人签名 2021.08.31 加入

IDP(Intelligent Development Platform)是面向数据科学家和算法工程师的新一代AI开发生产平台，便捷、高效数据科学家对数据接入与探索、模型开发、调试、训练和模型发布的需求。

发布

暂无评论

创作场景

轻松理解 20 种常用 AI 算法

Baihai IDP

评论