写点什么

2023 年 AI 十大展望:GPT-4 领衔大模型变革,谷歌拉响警报,训练数据告急

作者:OneFlow
  • 2023-01-05
    四川
  • 本文字数:6831 字

    阅读完需:约 22 分钟

2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

新年伊始,大模型的话题热度不减。2022 年 11 月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出意味着什么,比如是否会颠覆搜索引擎市场格局。踏入 2023 年,这不禁让我们对 GPT-4 的发布充满遐想,它会比 ChatGPT 更上一层楼吗?会有哪些不一样的惊喜?岁末年初之际,科技圈的年度盘点不胜枚举,相关技术预测倒是不多。本文作者 Rob Toews 发布了 2023 年 AI 发展的十大预测,整体来看,大部分预测都离不开“大模型”这个关键词,具体分析也有其道理。当然,其中的文生图、人形机器人等领域的发展也举足轻重。2023,让我们拭目以待。


作者|Rob Toews

翻译|杨婷、徐佳渝


1. 重磅事件:GPT-4 将在年初发布

 

GPT-4 是 OpenAI 的新一代生成语言模型,它有着强大的功能,最近到处流传着它的消息。

 

GPT-4 预计将在 2023 年年初发布,相较于 GPT-3 和 3.5,GPT-4 的性能有着跳跃式的提升。尽管最近有关 ChatGPT 的讨论正在火热朝天地进行,但相比 GPT-4,这只是前奏而已,让我们拭目以待!

 

GPT-4 会是什么样子的呢?与人们的直觉不同,我们预测它不会比其前身 GPT-3 大太多。在今年早些时候发表的一篇有影响力的研究论文(https://arxiv.org/pdf/2203.15556.pdf)中,DeepMind 研究人员称现在的大型语言模型实际上比本来应该有的大小还要大。为了能在给定的有限计算预算中获得最佳模型性能,现在的模型应该用更少的参数在更大的数据集上进行训练。也就是说,训练数据比模型大小重要。

 

当今大多数主要语言模型都是在约 3000 亿个 token 的数据语料库上训练的,比如说 OpenAI 的 GPT-3(1750 亿个参数)、AI21 Labs 的 Jurassic(1780 亿个参数)和微软/英伟达的 Megatron-Turing(5700 亿个参数)。

 

我们预测,GPT-4 的数据集要比上面提到的大一个数量级,也就是说它可能在 10 万亿个 token 的数据集上进行训练。同时它的参数将比 Megatron-Turing 的要少。

 

据说,GPT-4 有可能是多模态的,除文本生成之外,它还可以生成图片、视频以及其他数据类型的输入。这意味着 GPT-4 能够像 DALL-E 一样根据输入的文本提示词(prompt)生成图像,或者是可以输入视频然后通过文本的形式回答问题。

 

多模态 GPT-4 的发布可能是一个重磅消息。但是它更可能和以前的 GPT 模型一样是纯文本模型,它在语言任务上的表现将重新定义 SOTA。具体来说 GPT-4 会是什么样的呢?那就是它在记忆(保留和参考前期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言领域的性能会有跨越式提升。


2. 训练大型语言模型将逐渐开始耗尽数据

 

数据是新时代的石油这种说法早就已经是陈词滥调了,但这样说还不足以表明数据的重要性:因为石油和数据都是有限的,都有消耗殆尽的一天,在 AI 领域,语言模型对数据的需求量最大,数据耗尽的压力也更大。

 

正如前面提到的,DeepMind 的 Chinchilla work 等研究已经表明,构建大型语言模型(LLM)最有效的方式不是把它们做得更大,而是在更多的数据上对其进行训练。

 

但是世界上有多少语言数据呢?更准确地说有多少语言数据达到了可以用来训练语言模型的要求呢?实际上,现在网络上大多数的文本数据并没有达到要求,不能用来训练大型语言模型。

 

对于这个问题,我们很难给出确切的答案,但是根据一个研究小组(https://arxiv.org/pdf/2211.04325.pdf)给出的数据,全球高质量文本数据的总存量在 4.6 万亿到 17.2 万亿个 token 之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交媒体。最近的另一项研究数据(https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications)显示,数据总数大约为 3.2 万亿个 token。

 

DeepMind 的 Chinchilla 模型是在 1.4 万亿个 token 上训练的。也就是说,在这个数量级内,我们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型领域持续进步的一大障碍。许多前沿 AI 研究人员和企业家私下里都对此忧心忡忡。

 

随着研究人员开始寻求解决数据短缺这一迫在眉睫的问题,预计 2023 年对这方面的关注度会增加。针对这一问题,合成数据是一种可能的解决方案,尽管该如何操作这一方法还未可知。还有另一种可能的方法,那就是系统性地转录会议上的讲话,毕竟口头交流代表着还有大量未捕获的文本数据。

 

作为世界领先的 LLM 研究机构,人们十分好奇 OpenAI 在其即将发布的 GPT-4 研究中会如何应对这一挑战,同时,大家也期待着可以获得一些启发。


3. 一些消费者开始将完全自动驾驶作为日常出行模式


在多年预热炒作却一再失信之后,最近自动驾驶汽车领域出现了一些少有人注意的新变化:真正的无人驾驶汽车时代已经悄悄来临。

 

现在在旧金山,你可以下载 Cruise 应用程序(这个程序和 Uber 或 Lyft 的 APP 差不多),通过这个 APP 你可以叫到真正的没有司机辅助的无人驾驶汽车带你在街道上穿行。

 

目前,这些无人驾驶汽车仅在夜间服务,服务时间是晚上 22:00 点到早上 5:30,但是 Cruise 已经准备好了要在旧金山提供全天候服务,这个计划预计将在几周后实行。另一边 Cruise 的竞争对手 Waymo 紧跟其后,也开始在旧金山投放无人驾驶汽车。

 

2023 年,人们将快速习惯 robotaxi 服务,作为一种方便、可行的交通服务方式,人们一开始会感到新颖、奇怪,然后会快速习惯 robotaxi 的存在,直到司空见惯。街道上无人驾驶汽车的数量和使用它们的人数将会激增。简而言之,无人驾驶汽车即将进入商业化和规模化阶段。

 

无人驾驶汽车的推广将以城市为单位,逐个进行。在旧金山的基础上,来年可能会新增至少两个面向公众投放无人驾驶汽车的美国城市。比较理想的候选城市有凤凰城、奥斯汀、拉斯维加斯和迈阿密。


4. AI 绘画工具 Midjourney 将筹集风险投资资金


OpenAI 的 DALL-E,Stability AI(和其他贡献者)的 Stable Diffusion 和 Midjourney 是目前最著名、最有影响力的三个文生图的 AI 平台。

 

2019 年,OpenAI 从微软处获得了 10 亿美元的投资,并且目前正在商讨筹集更多资金。几个月前,Stability AI 获得了 1 亿美元的投资,而且已经开始寻求更多投资。

 

相比之下,Midjourney 没有任何外部投资。不过,Midjourney 的用户和发展速度增长极快,目前为止,它拥有近 600 万用户和相当可观的收入。但是其网站显示 Midjourney 仍然是一个“小型自筹资金”组织,只有 11 名全职团队成员。

 

大卫·霍尔茨(David Holz)是 Midjourney 的创始人兼首席执行官,他曾是 Leap Motion 的联合创始人兼首席技术官,Leap Motion 曾是一家飞速发展的虚拟现实创业公司,这家公司在 2010 年代筹集了近 1 亿美元的风险投资,之后公司发展状况迅速恶化,最终被收购。据称这段失败的经历让霍尔茨拒绝接受外部资金。到目前为止,Midjourney 已经拒绝了很多投资者。

 

然而,面对公司的迅猛发展、激烈的竞争以及大量的市场机会,我们推测霍尔茨将在 2023 年开始为 Midjourney 筹集投资。否则,Midjourney 将快速在这场由其引发的生成式人工智能淘金热中落伍。


 5. 谷歌作为主流搜索引擎的地位将面临挑战

 

搜索引擎是现代互联网体验的核心,是我们浏览和访问数字信息的主要方式。现在的大型语言模型可以进行复杂级别的读和写,这在几年前几乎是不可思议的,这会对我们的搜索方式产生深远影响。

 

在 ChatGPT 出现之后,重新定义搜索的对话式搜索(conversational search)引起了人们的广泛注意。对话式搜索让我们可以与 AI 智能体进行动态对话以找到要查找的内容,不用再像传统的搜索引擎一样先输入要查询的内容,然后返回一长串链接,比如现在谷歌搜索的做法。

 

对话式搜索具有广阔的发展前景,但是它还有一个亟待解决的大问题,那就是搜索结果不够准确,只有解决了这个问题,对话搜索才能发展起来。目前对话式 LLM 的准确性还不够,因为它们有时会给出与事实不符的信息。

 

最近 OpenAI 首席执行官 Sam Altman 称,“现在在重要的事情上,我们还不能依赖 ChatGPT”。大多数用户也不会接受不能百分百保证结果准确的搜索引擎,即使它的准确率可以达到 95%甚至 99%。2023 年,研究人员面临的主要挑战之一就是,以一种可扩展且稳健的方式来解决这个问题。

 

一批发展势头良好的初创公司正在对谷歌的搜索引擎发起挑战,它们希望通过 LLM 和对话界面重塑消费者的搜索方式,比如 You.com,Character.AI,Metaphor 和 Perfucity 等公司。

 

但是,LLM 不仅仅只是会改变消费者的互联网搜索方式,它还会改变其他搜索类型。

 

比如企业搜索(组织搜索和检索私有数据的方式)同样也处于新黄金时代的风口浪尖。由于大规模矢量化的出现,LLM 首次实现了真正的语义搜索:它能够根据基本概念和上下文而不是简单的关键字来索引和访问信息。这将使企业搜索更加强大和高效。像 Hebbia 和 Glean 这样的初创公司正在使用大型语言模型引领改变企业搜索的潮流。

 

下一代搜索引擎将不仅限于文本。人工智能的最新进展为多模态搜索提供了新的可能性:即跨数据模式查询和检索信息的能力。

 

因为视频占据了互联网数据总量的 80%左右,所以视频搜索代表了最大的发展机会。想象一下,如果我们可以轻松且准确地搜索视频中的某个片段、某个人、某个概念或者某个动作,这将是什么样的局面?Twelve Labs 是一家初创公司,它构建了一个多模态 AI 平台,以实现精细化的视频搜索和理解。

 

自谷歌在互联网时代崛起以来,搜索领域就几乎没怎么发生过变化。2023 年,有了大语言模型,该领域将发生巨变。


6. 开发人形机器人将吸引大量注意力、人才以及资金,2023 年将有几个新的人形机器人项目启动


人形机器人可能是好莱坞电影对 AI 进行夸张化的极端代表,比如说电影 《机械姬》和《我,机器人》。人形机器人发展迅速,并逐渐成为现实。

为什么要打造人形机器人呢?原因很简单,因为我们现实世界的大部分架构都是为了人类而打造,如果我们想利用机器人在工厂、购物中心、办公室和学校这样的场所自动完成复杂活动,最有效的方法就是让机器人拥有和人类一样的外形。这样,机器人就可以应用到多种场景中,且无需适应周围环境。

 

今年 9 月,特斯拉在人工智能日推出了擎天柱(Optimus)机器人,这大大推动了人形机器人领域的发展。埃隆·马斯克表示,擎天柱最终会比汽车业务更有价值。然而,擎天柱机器人要想完全成熟,还任重而道远 。但是,当特斯拉将所有资源都投入到优化擎天柱这项任务时,能够取得的进展是无法估量的。

 

同样地,许多具有发展前景的初创公司也推动着人形机器人领域的发展,包括 Agility robotics、Halodi robotics、Sanctuary AI 以及 Collaborative robotics。

 

随着人形机器人产业竞争愈演愈烈,预计 2023 年会有更多的公司加入到这场角逐中,包括初创企业和一些知名公司(如丰田、三星、通用汽车、松下)。这类似于 2016 年的自动驾驶汽车,当越来越多的人开始意识到汽车行业拥有巨大的市场机会时,次年将会有大量人才和资本涌入该领域。


7. MLOps 的新版本:LLMOps 将登台亮相

 

当某种新的技术平台出现时,相应的需求和机会也会随之出现,比如说用以支持新平台的工具和基础设施。风险投资家们通常把这些辅助工具视为“镐头和铲子”(以迎接即将到来的淘金热)。

 

近年来,初创企业界最热门的当属广为人知的 MLOps 机器学习工具。初创公司开始一蜂窝地研究 MLOps,并以令人咋舌的估值筹集到大量资金:Weights & Biases(获得 2 亿美元融资,平台估值达 10 亿美元)、Tecton(获得 1.6 亿美元融资)、Snorkel(获得 1.38 亿美元融资,平台估值达 10 亿美元)、OctoML(获得 1.33 亿美元融资,平台估值达 8.5 亿美元)等等。

 

如今,我们目睹了新一代人工智能技术平台——大型语言模型(LLMs)的问世。与预训练语言学习模型(pre-LLM)相比,大型语言模型具有独特的工作流程、技能组件和发展潜能,代表了人工智能的新范式。通过 API 或者开源,人们可以很容易获得大量预训练模型,这完全改变了人工智能产品。因此,注定会出现一套新的工具和基础设施。

 

我们预测 LLMOps 将成为新的流行趋势,它代表着新一代人工智能的镐头和铲子。以新一代 LLMOps 产品为例,包括基础模型微调工具、无代码 LLM 部署、GPU 访问与优化、提示词实验、提示词链以及数据合成与数据增强。


8. 基于或引用 AlphaFold 的研究项目数量将会激增

 

2020 年底,DeepMind 公司首次推出了 AlphaFold 平台,破解了生命的一大谜团:即蛋白质的折叠问题。AlphaFold 能够仅从蛋白质的一维氨基酸序中准确地预测出蛋白质的三维形态。这是一个里程碑式的成就,解决了困扰研究人员几十年的问题(AlphaFold 代表了人工智能历史上最重要的成就)。

 

因为蛋白质是地球上所有生物进行重要活动的内在基础,对蛋白质的结构和功能了解得越透彻,就越能为生物学和人类健康提供新的可能。不论是从开发救生疗法(life-saving therapeutics),到改善农业,还是从对抗疾病到研究生命起源,蛋白质存在于生活中的方方面面。

 

DeepMind 于 2021 年 7 月开源了 AIphaFold,并推出了一个数据库,它包含 350,000 种三维蛋白质结构(作为参考,在推出 AlphaFold 之前,人类已知的蛋白质结构大约有 180,000 种)。此外,几个月前,DeepMind 公布了另一个包含 2 亿种蛋白质结构的数据库——这几乎覆盖了所有科学上已知的蛋白质。

 

DeepMind 最新版本发布短短几个月后,就有来自 190 多个国家的 50 多万名研究人员使用 AlphaFold 平台,用它查看了 200 万种不同的蛋白质结构。但这仅仅只是开始。AlphaFold 的巨大突破所带来的影响需要好几年才能逐渐展现出全貌。

 

到 2023 年,预计基于 AlphaFold 的研究数量将会激增。研究人员将利用这一庞大的新型基础生物学知识宝库,将其应用于新型疫苗、新型塑料研发等多个跨学科领域,进而改变世界。


9. DeepMind、Google Brain 和 OpenAI 将致力于为机器人构建基础模型

 

去年,斯坦福大学的一个研究团队提出了“基础模型”(foundation model)一词,它是指基于大量数据训练的大规模人工智能模型。该模型的构建并不是为了执行特定任务,而是为了能有效执行各种不同活动的任务。

 

基础模型一直是人工智能最新发展的关键驱动力。如今,基础模型非常强大。但无论是 GPT-3 这样的文本生成模型,还是 Stable Diffusion 这样的文本转图像模型,又或是 Adept 这样的计算机操作(computer actions)模型,均只能运用于数字领域。

 

AI 系统在真实世界的应用随处可见,例如自动驾驶汽车、仓库机器人、无人机、人形机器人等等,但到目前为止,它们大多还未受到基础模型新范式的影响。

 

这种情况将在 2023 年发生变化。预计用于机器人的基础模型这一早期开创性工作,将由世界领先的人工智能研究机构 DeepMind、Google Brain 和 OpenAI 完成(尽管 OpenAI 去年退出了机器人研究)。

 

构建用于机器人的基础模型意味着什么?换句话说,构建物理世界的基础模型意味着什么呢?从高层次来看,这样的模型可以用不同传感器模式(如相机、雷达、激光雷达)的大量数据进行训练,以产生对物理和现实世界物体的普遍理解能力:比如这些不同的物体是如何移动的、它们之间如何相互作用、它们有多重、多脆弱、多柔软、多灵活以及当你触碰、投掷或者扔它们的时候会发生什么。这种“真实世界的基础模型”可以针对特定的硬件平台和特定的下游任务进行微调。


10. 美国将投资数十亿美元建设本国芯片制造设施

 

人工智能和人类智能(human intelligence)一样同时依赖于硬件和软件设施。先进半导体对推动现代人工智能而言至关重要。到目前为止,影响最大、应用最为广泛的是英伟达的 GPU;像 AMD、因特尔以及一些研究人工智能芯片的新兴企业也试图跻身芯片市场。

 

几乎所有的人工智能芯片都是由美国设计,并在台湾完成制造。并且全球最先进的芯片几乎都是由台积电(TSMC)这家公司生产的,包括英伟达的 GPU。

 

由于中美地缘政治的紧张局势,为了降低人工智能硬件瓶颈的不确定性,降低对台湾的依赖,2023 年,美国政府将加大激励措施并对在美建设先进芯片制造设施的工厂给予补贴。而今年夏天通过的《芯片与科学法》(The CHIPS and Science Act)则为此提供了立法动力和预算资源。

 

这一进程已经开始。两周前,台积电宣布将投资 400 亿美元在亚利桑那州建立两家新的芯片制造厂(美国总统拜登亲自访问了亚利桑那州的工厂选址,对其称赞不绝),更重要的是,新台积电工厂预计将于 2026 年开始运行,生产 3 纳米芯片,该芯片将成为当今世界最先进的半导体。

 

随着美国开始在国内寻找生产基地以化解关键人工智能硬件所面临的风险,预计 2023 年将看到更多这样的承诺。

(注:本文作者是 Radical Ventures 的合伙人,Radical Ventures 是 Hebbia、Twelve Labs 和 You.com 的投资者。本文经授权后由 OneFlow 编译发布,若需转载请先联系获得授权。原文:https://www.forbes.com/sites/robtoews/2022/12/20/10-ai-predictions-for-2023/?sh=51a9e1ddfab7


其他人都在看


欢迎 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

发布于: 刚刚阅读数: 3
用户头像

OneFlow

关注

不至于成为世界上最快的深度学习框架。 2022-03-23 加入

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud

评论

发布
暂无评论
2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急_人工智能_OneFlow_InfoQ写作社区