AI 简报 -how to use Loss Surfaces 一种模型集成
![AI简报-how to use Loss Surfaces 一种模型集成](https://static001.geekbang.org/infoq/0b/0b5300d10f4c491b751c6a361ea35dc3.png)
1.背景
论文:Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNN
![](https://static001.geekbang.org/infoq/b4/b4e35ee426e55e961d85facd71cbce33.png)
DNN 的损失曲面上局部最优点有很多,而且局部最优点之间在曲面空间上是相互孤立。
该论文发现孤立的局部最优点之间在权重空间上存在一个连通区域,这个区域上 train loss 十分相近, 如下中间和右边的图。
![](https://static001.geekbang.org/infoq/09/0963e93024afb01f9f5bb1c596d149df.png)
we propose the Fast Geometric Ensembling (FGE) method that aims to find diverse networks with relatively small steps in the weight space, without leaving a region that corresponds to low test error.
2. 解读
找到这样的连通区域有什么好处?
我们可以看到连通域上,train loss 相近, loss 曲面变得 wider, 这样就在测试集上泛化的更好。可以做一个对比,如果是上图的左边的图,如果选择 3 个局部最优的其中一个,它的 loss 损失只能在一个较小区域上,这样在测试集上可能偏移到黄色外面的区域。
宽的局部极小值在训练和测试过程中产生类似的损失;但对于窄的局部极小值而言,训练和测试中产生的损失就会有很大区别。这意味着,宽的极值比窄的极值有更好的泛化性
![](https://static001.geekbang.org/infoq/d4/d40d1395008ccaebdd5ee737a228381b.png)
3.方法和实现细节
3.1 方法
可以认为是一个模型集成的方法。关键是如何去寻找【1】中所说的连通区域
采用 cycle 周期学习率策略(lr 在[a1, a2])
![](https://static001.geekbang.org/infoq/1c/1c0100ee5ca8fbc8186caeb0d2860ac7.png)
3.2 实现细节
按原来 SGD 方式训练一个初始权重模型 w
以 w 为初始权重,执行 cycle 周期学习率学习
获取每个周期末的模型,预测结果进行融合
We used a pretrained model with top-1 test error of 23.87 to initialize the FGE procedure. We then ran FGE for 5 epochs with a cycle length of 2 epochs and with learning rates [1e-5, 1e-3]
![](https://static001.geekbang.org/infoq/f2/f2c9c7e540641ee8f1d054adb8ea29c5.jpeg?x-oss-process=image/resize,p_80/auto-orient,1)
版权声明: 本文为 InfoQ 作者【AIWeker】的原创文章。
原文链接:【http://xie.infoq.cn/article/e3acc4df7a778f54e619f0ed7】。文章转载请联系作者。
评论