梯度下降法 2
梯度下降法的种类
梯度下降法 Gradient Descent (考虑所有的样本)
随机梯度下降法 Stochastic Gradient Descent (只考虑一个样本)
小批量梯度下降法 Mini-batch Gradient Descent (考虑一部分子集)
这两种梯度下降法适合用于数据量比较大的场景中,MBGD 在工业中使用最广泛
随机梯度法 SGD 相较于梯度下降法,速度优势十分明显。SGD 是用一个样本的梯度来代替所有样本的梯度之和,这样计算出来的结果会存在大量的噪声,而且不太稳定,因此,经常会通过把学习率设置为较小的值来削弱梯度计算中的不稳定性。通过这样的方法,SGD 的收敛效果往往是较高的,最后找出来的解也更准确。
小批量梯度下降法 MBGD 是处于 GD 和 SGD 之间的一种方法,它是基于一部分子集来计算梯度的,并做参数的更新。它能避免 SGD 存在大量噪声的问题,而且更加稳定。这也是为什么工业界经常采用小批量梯度下降法的主要原因。
GD 和 MBGD 有助于解决鞍点 saddle point 的问题。
应用步骤
数据分析,找出对结果影响比较大的特征。如果数据当中含有大量的特征,一般来说,会把相关度不高的特征去掉,留下对结果影响较大的特征。
独热编码 one-hot encoding 的使用。对于类别型的变量,要提前进行特殊处理,如把个人的职业信息“医生、工程师、工人、教师”等等的字段转换成数量化的信号。如,使用独热编码。医生=(1,0,0,0), 工程师=(0,1,0,0), 工人=(0,0,1,0), 教师=(0,0,0,1). 这些都是向量。要对其进行分析,需要再把独热编码转换成 0,1 的情况。
逻辑回归
精确率 precision、召回率 recall、F1-Score 的使用。要评估模型的效果,还可以通过求精确率和召回率来进行判断。例如,有 10000 个样板,其中 9988 个是 A 样本,12 个是 B 样本,这种情况下,准确率依然会很高,所以这个模型不能说明任何问题。因此,我们得使用 F1-Score 进行评估。
F1-Score=(2*精确率*召回率)/(精确率+召回率)
版权声明: 本文为 InfoQ 作者【Qien Z.】的原创文章。
原文链接:【http://xie.infoq.cn/article/6e80c4dc0422941a00150eb5a】。文章转载请联系作者。
评论