写点什么

梯度下降法 - DAY12

用户头像
Qien Z.
关注
发布于: 2021 年 05 月 22 日
梯度下降法 - DAY12

函数最优参数

求函数最优参数,一般来说有两种方法:

  1. 导数设置为 0 (这种方法也称之为解析解 Analytic Solution)

  2. 采用迭代式的算话来求解,例如,梯度下降法。


梯度下降法

梯度下降法具有广泛的通用性,无论模型多复杂,它都能起着重要的作用。反向传播算法 Back-propagation 的本质就是梯度下降法,而梯度下降法非常依赖于求导


梯度下降法缺点

时间成本高,因为每一次的参数更新都是通过循环所有的样本来做累加的。


梯度下降法的种类

  • 随机梯度下降法 SGD

  • 小批量梯度下降法 (工业中最广泛使用)

这两种梯度下降法适合用于数据量比较大的场景中


学习率

在梯度下降法中,有一个重要的参数叫做学习率 Learning rate,学习率对于收敛和最终的结果起到很重要的作用。这个重要的参数可以被看作是可调节的参数,也叫做超参数


参数的初始化

在梯度下降法中,会随机初始化模型的参数。而在逻辑回归当中,无论怎样定义初始化,都不会改变逻辑回归的结果。因为逻辑回归的目标函数是一个凸函数,就是说,它有全局最优解,初始化并不会改变收敛后的结果。


凸函数

凸函数是数学函数的一类特征,就是一个定义在某个向量空间的凸子集 C(区间)上的实值函数。


判断迭代过程收敛情况

  • 相邻两个时间段损失函数 没有变化或者变化很小

  • 相邻两个时间段参数的值 没有变化或者变化很小


发布于: 2021 年 05 月 22 日阅读数: 11
用户头像

Qien Z.

关注

Everything is all 2020.04.10 加入

接受反驳&不接受被定义

评论

发布
暂无评论
梯度下降法 - DAY12