梯度下降法 2

Qien Z.

关注

发布于: 2021 年 05 月 29 日

梯度下降法的种类

梯度下降法 Gradient Descent （考虑所有的样本）
随机梯度下降法 Stochastic Gradient Descent （只考虑一个样本）
小批量梯度下降法 Mini-batch Gradient Descent （考虑一部分子集）

这两种梯度下降法适合用于数据量比较大的场景中，MBGD 在工业中使用最广泛

随机梯度法 SGD 相较于梯度下降法，速度优势十分明显。SGD 是用一个样本的梯度来代替所有样本的梯度之和，这样计算出来的结果会存在大量的噪声，而且不太稳定，因此，经常会通过把学习率设置为较小的值来削弱梯度计算中的不稳定性。通过这样的方法，SGD 的收敛效果往往是较高的，最后找出来的解也更准确。

小批量梯度下降法 MBGD 是处于 GD 和 SGD 之间的一种方法，它是基于一部分子集来计算梯度的，并做参数的更新。它能避免 SGD 存在大量噪声的问题，而且更加稳定。这也是为什么工业界经常采用小批量梯度下降法的主要原因。

GD 和 MBGD 有助于解决鞍点 saddle point 的问题。

应用步骤

数据分析，找出对结果影响比较大的特征。如果数据当中含有大量的特征，一般来说，会把相关度不高的特征去掉，留下对结果影响较大的特征。
独热编码 one-hot encoding 的使用。对于类别型的变量，要提前进行特殊处理，如把个人的职业信息“医生、工程师、工人、教师”等等的字段转换成数量化的信号。如，使用独热编码。医生=(1,0,0,0), 工程师=(0,1,0,0), 工人=(0,0,1,0), 教师=(0,0,0,1). 这些都是向量。要对其进行分析，需要再把独热编码转换成 0,1 的情况。
逻辑回归
精确率 precision、召回率 recall、F1-Score 的使用。要评估模型的效果，还可以通过求精确率和召回率来进行判断。例如，有 10000 个样板，其中 9988 个是 A 样本，12 个是 B 样本，这种情况下，准确率依然会很高，所以这个模型不能说明任何问题。因此，我们得使用 F1-Score 进行评估。

F1-Score=（2*精确率*召回率）/（精确率+召回率）

发布于: 2021 年 05 月 29 日阅读数: 8

原文链接:【http://xie.infoq.cn/article/6e80c4dc0422941a00150eb5a】。文章转载请联系作者。

Qien Z.

关注

Everything is all 2020.04.10 加入

接受反驳&不接受被定义

发布

暂无评论

创作场景

梯度下降法 2

梯度下降法的种类

应用步骤

Qien Z.

评论