梯度下降法 - DAY12
函数最优参数
求函数最优参数,一般来说有两种方法:
把导数设置为 0 (这种方法也称之为解析解 Analytic Solution)
采用迭代式的算话来求解,例如,梯度下降法。
梯度下降法
梯度下降法具有广泛的通用性,无论模型多复杂,它都能起着重要的作用。反向传播算法 Back-propagation 的本质就是梯度下降法,而梯度下降法非常依赖于求导。
梯度下降法缺点
时间成本高,因为每一次的参数更新都是通过循环所有的样本来做累加的。
梯度下降法的种类
随机梯度下降法 SGD
小批量梯度下降法 (工业中最广泛使用)
这两种梯度下降法适合用于数据量比较大的场景中
学习率
在梯度下降法中,有一个重要的参数叫做学习率 Learning rate,学习率对于收敛和最终的结果起到很重要的作用。这个重要的参数可以被看作是可调节的参数,也叫做超参数。
参数的初始化
在梯度下降法中,会随机初始化模型的参数。而在逻辑回归当中,无论怎样定义初始化,都不会改变逻辑回归的结果。因为逻辑回归的目标函数是一个凸函数,就是说,它有全局最优解,初始化并不会改变收敛后的结果。
凸函数
凸函数是数学函数的一类特征,就是一个定义在某个向量空间的凸子集 C(区间)上的实值函数。
判断迭代过程收敛情况
相邻两个时间段损失函数 没有变化或者变化很小
相邻两个时间段参数的值 没有变化或者变化很小
版权声明: 本文为 InfoQ 作者【Qien Z.】的原创文章。
原文链接:【http://xie.infoq.cn/article/c0fa98e5faaa5737b9a33fed0】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论