写点什么

令人上头的 AI 论文 (上) | IDP Inspiration

作者:Baihai IDP
  • 2022 年 8 月 15 日
    北京
  • 本文字数:3554 字

    阅读完需:约 12 分钟

令人上头的AI论文(上) | IDP Inspiration

接下来的两期 IDP-Inspiration,将为大家推荐 10 篇 2022 年最值得读的 AI 领域论文,让大家及时了解 AI 领域的最新和经典突破。

论文推荐来自于数据科学家 Ygor Serpa,主要集中在计算机视觉领域。在推荐论文的同时,他阐述了推荐每篇文章的理由以及该论文在相应领域中的地位。

以下是译文,Enjoy! 点击阅读原文,可查看英文原文。


01 深度学习并不是你所需要的全部,2022

Shwartz-Ziv、Ravid, Amtai Armon,“Tabular data: Deep learning is not all you need.” Information Fusion 81 (2022): 84–90.(https://arxiv.org/abs/2106.03253)


今年是 AlexNet 的十周年纪念。从那时起,深度学习概念的流行程度变得比人工智能本身更突出,机器学习现在听起来已经过时了,不知道 A* 搜索算法的数据专业人士的数量不断增加。尽管如此,所谓“过时的”机器学习技术仍可以高效解决许多问题。

在本文中,作者展示了无论是否进行调试, XGBoost 在不同纯属性数据集上优于深度学习解决方案。此外,它还显示了自动调优的 XGBoost 分类器相比未调优的具有更大的优越性。


推荐理由:

1)AI 并不等价于深度学习,AI 远不止于此。特别地,如果您是数据科学领域初学者,请充分尊重经典技术,例如线性和逻辑回归、决策树、SVM 和 Booster。

2)在现实生活中,我们很容易忽略自动调优方法在 XGBoost 等高效模型上是如何创造奇迹的。在本文中,作者使用 HyperOpt 贝叶斯优化,比基准提高了约 30%。也许我们应该学习一些 HyperOpt 了。


小知识:

你知道 XGBoost 是在 2014 年发布的吗?它几乎与 TensorFlow 一样古老,但比神经网络要新得多。


扩展阅读:

想了解更多关于 Booster 的内容,可以阅读最原始的 AdaBoost 论文(1997) ,它为大多数集成方法奠定了基础。(https://www.sciencedirect.com/science/article/pii/S002200009791504X)

关于简单模型击败复杂模型,另一个重要文章是 fastText 线性文本分类器的分析和优化(https://arxiv.org/abs/1702.05531)。


02. 2020 年代的卷积网络, 2022

Liu, Zhuang “A ConvNet for the 2020s.” arXiv preprint arXiv:2201.03545 (2022). (https://arxiv.org/abs/2201.03545)


虽然卷积神经网络 (CNN) 取代了许多以前的计算机视觉研究,但现在已经有 Vision Transformers(ViTs)超越 CNN 的趋势了。在这方面,人们普遍认为 ViT 尚未取代 CNN 的原因是,它们的计算成本仍然是一个悬而未决的问题。


本文表明,经过仔细调整和训练的 ResNet 模型在 ImageNet、COCO 和 ADE20k 上的表现可以匹敌甚至优于 Transformer。换句话说,CNN 可能没有那么容易被取代。作者将他们改进的 ResNet 称为“ConvNeXt”。


推荐理由:

1)这是一篇非常实用的论文。几乎所有对 ResNet 的更改都可以扩展到其他模型。尤其是第 2.6 节,它具有非常高的可操作性,并且执行时间也不长。

2)虽然 Transformers 处于“炒作之巅”,但这些论文不仅仅是关于 Attention 的。本文展示的,将其中一些元素反向移植到旧模型中的方法就很具有借鉴意义。

3)最流行和受到热议的模型可能不是任务中最适用的模型。事实上,关于计算机视觉,ResNet 可能仍然是最不会出错的选择。


小知识:如果您想知道在 CNN 之前什么算法很流行,可以优先看看 ILSVRC 2012 比赛的第二名使用的 SIFT。


扩展阅读:

尽管 ConvNeXt 可以说是更好的,但关于 Vision Transformer 和 Swin Transformers 还是值得一读的。

顺便说一句,这不是第一篇尝试重新改进 ResNet 的论文,同一主题的文章还可参考《ResNet 的反击:在 timm 中改进的训练程序》(https://arxiv.org/abs/2110.00476)。


03. Transformer 综述, 2021

Lin, Tianyang, et al. “A survey of transformers.” arXiv preprint arXiv:2106.04554 (2021).(https://arxiv.org/abs/2106.04554)


从 2020 年到 2022 年,越来越多的资源被集中到 AI 的创新突破。在这个不断变化的领域中,对相关热门话题的综述最可能成为最热门的论文。


推荐理由:

1)尽管 Transformer 框架的复杂度是平方级的,它依旧具有广泛应用价值。对于希望了解自然语言处理 (NLP) 中最新发展近况的数据专业人员,Transformer 也很有帮助。

2)在论文中,尽管一些 Transformer 的变体(X-former)声称具有线性复杂性,但目前尚未有任何 X-former 被广泛采用。作者尝试提高 Attention 的方式对于设计神经网络的人也很值得一读。


小知识:为什么这么多人工智能系统以布偶命名?(https://www.theverge.com/2019/12/11/20993407/ai-language-models-muppets-sesame-street-muppetware-elmo-bert-ernie


扩展阅读:

在这篇论文之后,一个自然的后续是 阅读 2022 ICLR 的《视觉转换器如何工作》(https://paperswithcode.com/paper/how-do-vision-transformers-work-1?from=n26


04. SimCLR,2020

Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” International conference on machine learning. PMLR, 2020.(https://arxiv.org/abs/2002.05709

以上所提到的论文涉及的都是监督学习,即学习将 X 映射到 y。然而,现实世界更倾向于是一个“y 更少”的世界——无监督学习。无监督学些用于处理“没有明确答案,但可以获取更有用答案”的问题。例如,我们可以通过多种方式对一组客户进行聚类:性别、年龄、购买习惯等,我们可以根据这些聚类设计能带来更高盈利的营销策略。


在本文中,作者简化了现有的对比学习的文献研究以创建 SimCLR。与其他方法想比,该方法可以产生更好的下游结果。从某种意义上说,您可以将这项工作理解为视觉领域的 Word2Vec——一种从大型图像语料库中提取有用特征的系统方法。


推荐理由:

1)仔细想想,大多数人类学习都是无监督的。我们不断地观察世界,并对我们所看到的东西总结、提取特征。我坚信,通用智能的任何突破都伴随着相当大的无人监督成分。因此,人工智能研究者应该对此领域保持密切关注。

2)过去十年左右,NLP 领域的突破来自无监督预训练。到目前为止,还没有在图像处理中看到类似的革命。这是这个话题值得关注的另一个原因。


小知识:尽管无监督算法没有“y”,但大多数优化成本函数的技术都与监督学习类似。例如,超分辨率模型将原始图像与其降采样重建之间的重建误差最小化。


扩展阅读:这是一个非详尽的无监督问题列表:GAN、风格迁移、图像超分辨率、聚类、异常检测、关联规则挖掘等。

继续对比学习主题,SimCLRv2 (https://arxiv.org/abs/2006.10029)也可以作为后续阅读。

05. 高效网络模型 EfficientNet,2019

Tan, Mingxing, and Quoc Le. “EfficientNet: Rethinking model scaling for convolutional neural networks.” International conference on machine learning. PMLR, 2019.(https://arxiv.org/abs/1905.11946


手动调整神经网络通常感觉就像在玩乐高积木。我们可以添加/删除层和神经元,使用激活函数,调整训练计划等。大多数情况下,我们的调整行为是任意的,如加倍或减半,或者坚持用 2 或 10 的次幂。

在这项研究工作中,Tan 和 Quoc 探索了一种更具有原则性的方法——使用神经架构搜索 (NAS) 来扩大和缩小网络。他们发现,当深度、宽度和分辨率一起缩放时,可以获得最佳结果。此外,他们发布了一组从微型到超大型的预训练模型,实现了最先进的结果。


推荐理由:

1)这篇论文是一个很好的例子,用来证明自动调整策略(如 NAS 和贝叶斯优化)远比手动调整模型更具成本效益。此外,还可以轻松控制调优预算。

2)谨防那些“复杂得可怕”、且不可调整的模型。健壮的模型总是可以从小到大扩展,并保持最前沿的核心部分。EfficientNet 就是一个很好的例子。

3)最近无论是在计算机视觉还是 NLP 任务上,骨干架构(Backbone Architecture)的重要性一直在增长。虽然我们仍然看到头网络(Head Networks)的进步,但很难说真正的收益来自哪里。


小知识:作为参考,根据 Papers With Code,ImageNet 上的 Top-1 SOTA 模型的准确率为 90.88%,参数约为 24 亿。


扩展阅读:

虽然最大的语言模型竞争激烈,但关于高效但强大的模型的讨论则更为有趣(和包容性)。早期的模型包括 MobileNetShuffleNet和 SqueezeDet,而最近的冠军是 Conv-Mixer



更多技术内容,欢迎关注“Baihai IDP”

发布于: 刚刚阅读数: 4
用户头像

Baihai IDP

关注

还未添加个人签名 2021.08.31 加入

IDP(Intelligent Development Platform)是面向数据科学家和算法工程师的新一代AI开发生产平台,便捷、高效数据科学家对数据接入与探索、模型开发、调试、训练和模型发布的需求。

评论

发布
暂无评论
令人上头的AI论文(上) | IDP Inspiration_Baihai IDP_InfoQ写作社区