AI 简报 -how to use Loss Surfaces 一种模型集成

1.背景
论文:Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNN

DNN 的损失曲面上局部最优点有很多,而且局部最优点之间在曲面空间上是相互孤立。
该论文发现孤立的局部最优点之间在权重空间上存在一个连通区域,这个区域上 train loss 十分相近, 如下中间和右边的图。

we propose the Fast Geometric Ensembling (FGE) method that aims to find diverse networks with relatively small steps in the weight space, without leaving a region that corresponds to low test error.
2. 解读
找到这样的连通区域有什么好处?
我们可以看到连通域上,train loss 相近, loss 曲面变得 wider, 这样就在测试集上泛化的更好。可以做一个对比,如果是上图的左边的图,如果选择 3 个局部最优的其中一个,它的 loss 损失只能在一个较小区域上,这样在测试集上可能偏移到黄色外面的区域。
宽的局部极小值在训练和测试过程中产生类似的损失;但对于窄的局部极小值而言,训练和测试中产生的损失就会有很大区别。这意味着,宽的极值比窄的极值有更好的泛化性

3.方法和实现细节
3.1 方法
可以认为是一个模型集成的方法。关键是如何去寻找【1】中所说的连通区域
采用 cycle 周期学习率策略(lr 在[a1, a2])

3.2 实现细节
按原来 SGD 方式训练一个初始权重模型 w
以 w 为初始权重,执行 cycle 周期学习率学习
获取每个周期末的模型,预测结果进行融合
We used a pretrained model with top-1 test error of 23.87 to initialize the FGE procedure. We then ran FGE for 5 epochs with a cycle length of 2 epochs and with learning rates [1e-5, 1e-3]

版权声明: 本文为 InfoQ 作者【AIWeker】的原创文章。
原文链接:【http://xie.infoq.cn/article/e3acc4df7a778f54e619f0ed7】。文章转载请联系作者。
评论