令人上头的 AI 论文 (上) | IDP Inspiration
接下来的两期 IDP-Inspiration,将为大家推荐 10 篇 2022 年最值得读的 AI 领域论文,让大家及时了解 AI 领域的最新和经典突破。
论文推荐来自于数据科学家 Ygor Serpa,主要集中在计算机视觉领域。在推荐论文的同时,他阐述了推荐每篇文章的理由以及该论文在相应领域中的地位。
以下是译文,Enjoy! 点击阅读原文,可查看英文原文。
01 深度学习并不是你所需要的全部,2022
Shwartz-Ziv、Ravid, Amtai Armon,“Tabular data: Deep learning is not all you need.” Information Fusion 81 (2022): 84–90.(https://arxiv.org/abs/2106.03253)
今年是 AlexNet 的十周年纪念。从那时起,深度学习概念的流行程度变得比人工智能本身更突出,机器学习现在听起来已经过时了,不知道 A* 搜索算法的数据专业人士的数量不断增加。尽管如此,所谓“过时的”机器学习技术仍可以高效解决许多问题。
在本文中,作者展示了无论是否进行调试, XGBoost 在不同纯属性数据集上优于深度学习解决方案。此外,它还显示了自动调优的 XGBoost 分类器相比未调优的具有更大的优越性。
推荐理由:
1)AI 并不等价于深度学习,AI 远不止于此。特别地,如果您是数据科学领域初学者,请充分尊重经典技术,例如线性和逻辑回归、决策树、SVM 和 Booster。
2)在现实生活中,我们很容易忽略自动调优方法在 XGBoost 等高效模型上是如何创造奇迹的。在本文中,作者使用 HyperOpt 贝叶斯优化,比基准提高了约 30%。也许我们应该学习一些 HyperOpt 了。
小知识:
你知道 XGBoost 是在 2014 年发布的吗?它几乎与 TensorFlow 一样古老,但比神经网络要新得多。
扩展阅读:
想了解更多关于 Booster 的内容,可以阅读最原始的 AdaBoost 论文(1997) ,它为大多数集成方法奠定了基础。(https://www.sciencedirect.com/science/article/pii/S002200009791504X)
关于简单模型击败复杂模型,另一个重要文章是 fastText 线性文本分类器的分析和优化(https://arxiv.org/abs/1702.05531)。
02. 2020 年代的卷积网络, 2022
Liu, Zhuang “A ConvNet for the 2020s.” arXiv preprint arXiv:2201.03545 (2022). (https://arxiv.org/abs/2201.03545)
虽然卷积神经网络 (CNN) 取代了许多以前的计算机视觉研究,但现在已经有 Vision Transformers(ViTs)超越 CNN 的趋势了。在这方面,人们普遍认为 ViT 尚未取代 CNN 的原因是,它们的计算成本仍然是一个悬而未决的问题。
本文表明,经过仔细调整和训练的 ResNet 模型在 ImageNet、COCO 和 ADE20k 上的表现可以匹敌甚至优于 Transformer。换句话说,CNN 可能没有那么容易被取代。作者将他们改进的 ResNet 称为“ConvNeXt”。
推荐理由:
1)这是一篇非常实用的论文。几乎所有对 ResNet 的更改都可以扩展到其他模型。尤其是第 2.6 节,它具有非常高的可操作性,并且执行时间也不长。
2)虽然 Transformers 处于“炒作之巅”,但这些论文不仅仅是关于 Attention 的。本文展示的,将其中一些元素反向移植到旧模型中的方法就很具有借鉴意义。
3)最流行和受到热议的模型可能不是任务中最适用的模型。事实上,关于计算机视觉,ResNet 可能仍然是最不会出错的选择。
小知识:如果您想知道在 CNN 之前什么算法很流行,可以优先看看 ILSVRC 2012 比赛的第二名使用的 SIFT。
扩展阅读:
尽管 ConvNeXt 可以说是更好的,但关于 Vision Transformer 和 Swin Transformers 还是值得一读的。
Vision Transformer: https://arxiv.org/abs/2010.11929
Swin Transformers:https://openaccess.thecvf.com/content/ICCV2021/html/Liu_Swin_Transformer_Hierarchical_Vision_Transformer_Using_Shifted_Windows_ICCV_2021_paper.html
顺便说一句,这不是第一篇尝试重新改进 ResNet 的论文,同一主题的文章还可参考《ResNet 的反击:在 timm 中改进的训练程序》(https://arxiv.org/abs/2110.00476)。
03. Transformer 综述, 2021
Lin, Tianyang, et al. “A survey of transformers.” arXiv preprint arXiv:2106.04554 (2021).(https://arxiv.org/abs/2106.04554)
从 2020 年到 2022 年,越来越多的资源被集中到 AI 的创新突破。在这个不断变化的领域中,对相关热门话题的综述最可能成为最热门的论文。
推荐理由:
1)尽管 Transformer 框架的复杂度是平方级的,它依旧具有广泛应用价值。对于希望了解自然语言处理 (NLP) 中最新发展近况的数据专业人员,Transformer 也很有帮助。
2)在论文中,尽管一些 Transformer 的变体(X-former)声称具有线性复杂性,但目前尚未有任何 X-former 被广泛采用。作者尝试提高 Attention 的方式对于设计神经网络的人也很值得一读。
小知识:为什么这么多人工智能系统以布偶命名?(https://www.theverge.com/2019/12/11/20993407/ai-language-models-muppets-sesame-street-muppetware-elmo-bert-ernie)
扩展阅读:
在这篇论文之后,一个自然的后续是 阅读 2022 ICLR 的《视觉转换器如何工作》(https://paperswithcode.com/paper/how-do-vision-transformers-work-1?from=n26)
04. SimCLR,2020
Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.(https://arxiv.org/abs/2002.05709)
以上所提到的论文涉及的都是监督学习,即学习将 X 映射到 y。然而,现实世界更倾向于是一个“y 更少”的世界——无监督学习。无监督学些用于处理“没有明确答案,但可以获取更有用答案”的问题。例如,我们可以通过多种方式对一组客户进行聚类:性别、年龄、购买习惯等,我们可以根据这些聚类设计能带来更高盈利的营销策略。
在本文中,作者简化了现有的对比学习的文献研究以创建 SimCLR。与其他方法想比,该方法可以产生更好的下游结果。从某种意义上说,您可以将这项工作理解为视觉领域的 Word2Vec——一种从大型图像语料库中提取有用特征的系统方法。
推荐理由:
1)仔细想想,大多数人类学习都是无监督的。我们不断地观察世界,并对我们所看到的东西总结、提取特征。我坚信,通用智能的任何突破都伴随着相当大的无人监督成分。因此,人工智能研究者应该对此领域保持密切关注。
2)过去十年左右,NLP 领域的突破来自无监督预训练。到目前为止,还没有在图像处理中看到类似的革命。这是这个话题值得关注的另一个原因。
小知识:尽管无监督算法没有“y”,但大多数优化成本函数的技术都与监督学习类似。例如,超分辨率模型将原始图像与其降采样重建之间的重建误差最小化。
扩展阅读:这是一个非详尽的无监督问题列表:GAN、风格迁移、图像超分辨率、聚类、异常检测、关联规则挖掘等。
图像超分辨率:https://paperswithcode.com/task/image-super-resolution
关联规则挖掘:https://en.wikipedia.org/wiki/Association_rule_learning
继续对比学习主题,SimCLRv2 (https://arxiv.org/abs/2006.10029)也可以作为后续阅读。
05. 高效网络模型 EfficientNet,2019
Tan, Mingxing, and Quoc Le. “EfficientNet: Rethinking model scaling for convolutional neural networks.” International conference on machine learning. PMLR, 2019.(https://arxiv.org/abs/1905.11946)
手动调整神经网络通常感觉就像在玩乐高积木。我们可以添加/删除层和神经元,使用激活函数,调整训练计划等。大多数情况下,我们的调整行为是任意的,如加倍或减半,或者坚持用 2 或 10 的次幂。
在这项研究工作中,Tan 和 Quoc 探索了一种更具有原则性的方法——使用神经架构搜索 (NAS) 来扩大和缩小网络。他们发现,当深度、宽度和分辨率一起缩放时,可以获得最佳结果。此外,他们发布了一组从微型到超大型的预训练模型,实现了最先进的结果。
推荐理由:
1)这篇论文是一个很好的例子,用来证明自动调整策略(如 NAS 和贝叶斯优化)远比手动调整模型更具成本效益。此外,还可以轻松控制调优预算。
2)谨防那些“复杂得可怕”、且不可调整的模型。健壮的模型总是可以从小到大扩展,并保持最前沿的核心部分。EfficientNet 就是一个很好的例子。
3)最近无论是在计算机视觉还是 NLP 任务上,骨干架构(Backbone Architecture)的重要性一直在增长。虽然我们仍然看到头网络(Head Networks)的进步,但很难说真正的收益来自哪里。
小知识:作为参考,根据 Papers With Code,ImageNet 上的 Top-1 SOTA 模型的准确率为 90.88%,参数约为 24 亿。
扩展阅读:
虽然最大的语言模型竞争激烈,但关于高效但强大的模型的讨论则更为有趣(和包容性)。早期的模型包括 MobileNet、ShuffleNet和 SqueezeDet,而最近的冠军是 Conv-Mixer。
更多技术内容,欢迎关注“Baihai IDP”
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/03da8edbcb900a121acaf9cb2】。文章转载请联系作者。
评论