专家谈 AI:2021 年人工智能发展趋势(下)
亚马逊旗下人工智能研发部门 Alexa AI 首席研究科学家 Shalini Ghosh
随着人们开始在家庭和工作环境中接触越来越多的人工智能设备,这些设备能帮助用户完成的任务数量也将会进一步增长。比如说,智能助手可以帮助用户完成租借电影或者线上订餐这样的任务,智能监控可以通过异常事件检测来保障居家安全。
许多任务都将是多模态的,并涉及到视频、音频、语音和文本数据的处理和分析。
因此,在 2021 年,人们将继续保持对多模态人工智能的兴趣,就像我们在 2020 年已经看见的那样。
除此之外,许多高级任务的带标签训练数据十分匮乏,这会促使人们进一步研究稀疏数据环境中的学习技术,比如,小样本学习和自我监督学习。
最后,由于许多人工智能任务会在用户设备上运行,我们将看到更多对设备内置机器学习(以及更广范围的资源受限的机器学习)感兴趣的研究。
许可式邮件营销服务商 Mailchimp 数据科学家 Muhammed Ahmed
更多地使用零样本标注!近年来,我们已经彻底研究了大量预先训练的自然语言处理(NLP)模型的益处。许多最近的研究都喜欢把零样本(ZS)学习器当作开箱即用的分类器来使用。
在 2021 年,我预计能看到更多的人使用零样本学习来标注数据集,并且训练出开箱即用的分类器。相比于零样本分类,零样本标注的优点包括:
免费标注:不需要昂贵的标注器(比如 Amazon mechanical turk)就可以管理数据集
标注引导:将一个开放式的标注任务转变为一个简单的真/假标注
隐私保护标注:在标注敏感数据时十分有用(比如医疗保健和遗传数据)
通过多个来源获取零样本标记示例,并随之引发的训练集样例多样性
未来待开发的训练新分类器的能力
推理速度加快(在某些诸如多类,零样本, 以及自然语言推断(NLI)的情景下)
全栈数据科学家的增长
对于许多机器学习任务来说,未来的工程和建模都不再是难事。这主要是因为机器学习领域在过去几年来取得的巨大进步。
对于自然语言理解和生成而言,我们知道使用 transformer。对于计算机视觉而言,我们知道使用 CNN。对于列表类型数据来说,我们知道使用树方法,这些树方法往往会使用 bagging 或者 boosting 等算法。这节省了很多过去花费在让我们能够解决并实验出能够快速训练最顶尖模型的时间。
对于许多数据科学团队来说,新的痛点是部署模型并编写生产就绪代码,这要求开发者拥有软件工程和 MLOps 技能。
在 2021 年,我预计对机器学习工程师和全栈数据科学家的需求会更大。
数据管理平台益博睿(Aperture Data)创始人兼首席执行官 Vishakha Gupta
随着机器学习和数据科学领域的日渐成熟,机器学习行业正在从提高模型在特定数据集上的性能和准确率,发展到解决 MLOps 挑战。
随着当前机器学习工具和平台将细节抽象出来,我相信未来的重点会更多地放在减少复杂度、提高生产率和在实时公司数据上演示成果(在一定的延迟和空间占用下)等方面,而不是证明可行性。
通过机器学习从数据中获得商业价值包含多个步骤,这个过程目前仍然需要用多个孤立的解决方案来解决。当这些解决方案集成时,系统效率就会降低。
假设这些不同步骤的每一步都和数据进行交互,并且提供一种统一而有效的方式来和数据进行交互,那么,无论是哪个阶段,都可以降低机器学习管道在扩展时的复杂性。
我的研究主要集中在智能数据管理领域。我预测,在 2021 年,我们会越来越重视基础设施,它们能够在边缘设备和云端实现更简单、更可扩展的机器学习部署,并且把解决方案的时间,以及在真实世界数据上安全运行大量训练和验证任务的能力作为主要指标。与此同时,能源效率则将作为一个次要指标,不过它会变得越来越重要。
2021 年中,另一个值得重视的领域是,验证模型在更具有代表性的数据集上工作情况的工具。一些研究小组已经确定了模型在现实世界中的图像捕获上是如何受影响的、文本数据如何令人困扰,以及训练集数据本身又是如何不具有代表性的。我相信,接下来将会出现更多标准化指标和中立的第三方验证工具或者服务来评测模型的准确率。这些工具或者服务最终会将解决方案的操作指标和性能指标纳入其中,从而给出一个整体得分表。
加拿大科技健康公司 WinterLight Labs 机器学习负责人 Jekaterina Novikova
2020 年对很多人来说都是特殊的一年,并且也没有太多正能量。由于新冠疫情的暴发、健康风险增加、全球范围内前所未有的流动性和旅游限制,以及因新冠疫情所导致的其他种种后果,我们的日常生活发生了很大改变。我认为这样的背景加速了人工智能在几个领域的应用,并将在 2021 年形成一些主要转变。
首先,人工智能解决方案将更广泛地应用在健康医疗领域,特别是在心理健康领域。受抑郁、焦虑和压力等问题困扰的人数急剧上涨,基于人工智能的工具和解决方案刚好可以并且能够应对这一危机。
其次,在新冠疫情迟迟得不到完全控制的情况下,由于各种追踪应用程序的应用,以及类似的基于人工智能的解决方案的出现,个人隐私问题也显得尤为突出。
很显然,这些产品非常有用,并且能够帮助实施必要的社会控制、预测疫情暴发和追踪感染。不过,由于人工智能引发的潜在、负面的隐私影响,将在 2021 年成为一个严重的问题。
教育科技创企 SureStart 创始人兼首席执行官 Taniya Mishra
我们将看到更多的人工智能产品关注人和整个社会。在包括人工智能和技术在内的所有商业领域,多元、平等以及包容(Diversity, Equality & Inclusion,DEI)的问题被再次唤醒,这是一个不会消失的新兴趋势。
具体而言,忽略了 DEI 这三方面的人工智能公司会承担影响其底线的商业风险。如果人工智能不能为其所有的目标市场或者用户服务,那这些公司实际上就没有让其工作价值实现最大化。
已经有许多公司通过数据和算法偏差的技术评估,来关注和解决人工智能多元和伦理的问题,这也是非常重要的。然而,如果要真正解决这一问题,并且考虑到有关种族公平和正义的话题,我相信,我们会将更多的关注放在人、社会和构建人工智能的团队身上。
我们都见过,自上而下的 DEI 计划经常失败,这通常是因为个体员工不理解怎样在日常决策中实例化,或者说,他们没有跟这些决策建立情感联系。
所以,在 2021 年,我们会看到人工智能公司采取自下而上的 DEI 方法,拓展公司员工,特别是技术人员的视野,从而让他们进一步了解“谁”是工程师,“谁”是科学家,以及“谁”是技术专家。
此外,人工智能也不再是一门单纯的技术学科,我们需要用多学科的方法来理解其对人类的影响。对此已经展开深入思考的公司,将开始搭建专门的团队,团队成员不仅仅包括技术人才,而且还包括经过专业训练的伦理学家、社会学家和人类学家,他们往往能够站在超越产品技术和规格角度上,来思考技术所产生的影响。
人工智能产业使用数据的方法将不得不改变,这样才能恢复对科学和技术的信心。许多年来,许多公司都在争先恐后地发展成为创新驱动型企业(innovation driven enterprises, IDE)。但如今,大家的全新关注点,已经变成了发展成为数据驱动型企业(data driven enterprises, DDE)。
对于人工智能公司而言,DDE 显得尤为重要。毕竟,人工智能系统需要大量数据来训练、测试以及验证算法。然而,当收集、存储和使用这些数据,或者利用这些数据建立遵守伦理的人工智能时,大量的数据也带来了大量的责任。由于越来越多的消费者希望参与到他们的数据如何使用以及由谁使用的决策之中,因此,市场也会受到这些伦理挑战的驱动。个人数据的访问控制权将掌握在用户手中,而不是技术开发人员或者科技企业的所有者手中。人工智能公司需要牢记这一点,并想办法让数据收集、存储和使用更加透明;同时,也需要注意如何使用这些数据,以确保人工智能系统的公平与公正。这就要求人工智能公司在测试和验证算法时建立约束条件,不仅要检查整体准确率,还需要特别地检查它在不同人口群体中(比如白人男性与黑人女性)的泛化程度。只有这样,组织才能在人工智能部署到产品中之前,识别出特殊的偏差领域,并解决这一问题。
深度学习创企 DeepCube 联合创始人兼首席技术官 Dr. Eli David
我们看到一个明显的趋势,就是顶尖的深度学习模型正在变得越来越大。在 2019 年,最大的深度学习模型有大约 10 亿个参数(权重)。到了 2020 年,最大的深度学习模型已经超过了 1000 亿个参数,一年就增长了超过 100 倍!这些更大的模型,由于提高了准确率,因此也更有优势。但是,其计算和内存需求也在以同样的速率增长。因此,能够显著减小这些模型大小、并提高其速率的解决方案,将会在部署上变得越来越重要。
评论