写点什么

AI 简报 -how to use Loss Surfaces 一种模型集成

作者:AIWeker
  • 2022 年 7 月 14 日
  • 本文字数:660 字

    阅读完需:约 2 分钟

AI简报-how to use Loss Surfaces 一种模型集成

1.背景

论文:Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNN


  • DNN 的损失曲面上局部最优点有很多,而且局部最优点之间在曲面空间上是相互孤立。

  • 该论文发现孤立的局部最优点之间在权重空间上存在一个连通区域,这个区域上 train loss 十分相近, 如下中间和右边的图。



we propose the Fast Geometric Ensembling (FGE) method that aims to find diverse networks with relatively small steps in the weight space, without leaving a region that corresponds to low test error.


2. 解读

  • 找到这样的连通区域有什么好处?

我们可以看到连通域上,train loss 相近, loss 曲面变得 wider, 这样就在测试集上泛化的更好。可以做一个对比,如果是上图的左边的图,如果选择 3 个局部最优的其中一个,它的 loss 损失只能在一个较小区域上,这样在测试集上可能偏移到黄色外面的区域。

宽的局部极小值在训练和测试过程中产生类似的损失;但对于窄的局部极小值而言,训练和测试中产生的损失就会有很大区别。这意味着,宽的极值比窄的极值有更好的泛化性



3.方法和实现细节

3.1 方法

可以认为是一个模型集成的方法。关键是如何去寻找【1】中所说的连通区域

  • 采用 cycle 周期学习率策略(lr 在[a1, a2])



3.2 实现细节

  • 按原来 SGD 方式训练一个初始权重模型 w

  • 以 w 为初始权重,执行 cycle 周期学习率学习

  • 获取每个周期末的模型,预测结果进行融合

We used a pretrained model with top-1 test error of 23.87 to initialize the FGE procedure. We then ran FGE for 5 epochs with a cycle length of 2 epochs and with learning rates [1e-5, 1e-3]





发布于: 刚刚阅读数: 3
用户头像

AIWeker

关注

公众号:人工智能微客(aiweker) 2019.11.21 加入

人工智能微客(aiweker)长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发

评论

发布
暂无评论
AI简报-how to use Loss Surfaces 一种模型集成_AI简报_AIWeker_InfoQ写作社区