人工智能机器学习之 Bagging 算法

2022-11-14
浙江
本文字数：1312 字
阅读完需：约 4 分钟

bagging（装袋算法）的集成学习方法非常简单，假设我们有一个数据集，使用 bootstrap sample（有放回的随机采样,每一个样本被抽中概率符合均匀分布)取了 n 份,作为新的训练集，我们使用这 n 个子集分别训练一个分类器（使用分类、回归等算法），最后会得到 n 个分类模型。我们将测试数据输入到这 n 个分类器，会得到 n 个分类结果，比如分类结果是 0 和 1，那么这 n 个结果中谁占比最多，那么预测结果就是谁。大致过程如下：1.对于给定的训练样本 s,每轮从训练样本 s 中采用有放回抽样(booststraping)的方式抽取 m 个训练样本,共进行 n 轮，得到了 n 个样本集合，需要注意的是这里的 n 个训练集之间是相互独立的。2.在获取了样本集合之后，每次使用一个样本集合得到一个预测模型，对于 n 个样本集合来说，我们总共可以得到 n 个预测模型。3.如果我们需要解决的是分类问题，那么我们可以对前面得到的 n 个模型采用投票的方式得到分类的结果，对于回归问题来说，我们可以采用计算模型均值的方法来作为最终预测的结果。

随机森林 RF（Random Forests）随机森林是 bagging 的一个扩展，在以决策树为基学习器构建 bagging 集成的基础上，进一步在决策树的训练中，引入随机属性选择。其基本思想就是构造很多棵决策树，形成一个森林，每一棵树都会给出自己的分类选择，并由此进行“投票”，森林整体的输出结果将会是票数最多的分类选项；有两个随机过程，使随机森林很大程度上，因个体学习器之间差异度的增加，而避免过拟合现象：数据样本选择的随机：随机的从整体的训练数据中选取一部分，作为一棵决策树的构建，而且是有放回的选取；特征（x）的随机：每棵决策树的构建所需的特征是从整体的特征集随机的选取的。

随机森林的优点与缺点优点：    可积极分类、回归两类问题，并在这两个方面都有相当好的估计表现；    它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。    在对缺失数据进行估计时，随机森林是一个十分有效的方法。就算存在大量的数据缺失，随机森林也能较好地保持精确性；    当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法；    模型的上述性能可以被扩展运用到未标记的数据集中，用于引导无监督聚类、数据透视和异常检测；    在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合。
缺点：    随机森林在解决回归问题时并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。    对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

复制代码

bagging 和 rand forest1）rand forest 是选与输入样本的数目相同多的次数（可能一个样本会被选取多次，同时也会造成一些样本不会被选取到），而 bagging 一般选取比输入样本的数目少的样本 2）bagging 是用全部特征来得到分类器，而 rand forest 是需要从全部特征中选取其中的一部分来训练得到分类器；一般 rand forest 效果比 bagging 效果好！

发布于: 刚刚阅读数: 5

原文链接:【http://xie.infoq.cn/article/e0a05d77b167aacf1e2d62531】。文章转载请联系作者。