AI 实测|基于图像、语言与声音,人工智能是否已经超越了人类?
本文作者
王加龙,阿里云高级算法专家
往期文章推荐
时序预测双飞轮,全面超越Transformer,纯MLP模型实现性能效能齐飞
前言
ChatGPT 发布后,AI 相关话题被推向了前所未有的热度,科学家、工程师、艺术家、政府人员、商人以及广大群众都在讨论 AI 话题。于是,不管是专业人士还是吃瓜群众,难免会心生一个问题:AI 是否超越了人类?
类不相同,何以对比?诚然如此。但人们在探索 AI 的过程中,一直试图从各个维度模仿着人类智能;所以,这种对比是存在意义的。
此次对比,将回避对数据、算法、算力、系统等专业知识的探讨,从自然语言任务、图像处理任务、语音生成、视频生成、代码能力、AI 推理等六大方面,详细介绍 AI 的能力表现及效果。
本文首先向大家展示 AI 在自然语言任务、图像处理任务、语音生成 3 方面的表现及效果。
业界近况
首先,快速地回顾一下 AI 行业的“近况”。
所谓“文无第一、武无第二”,在 AI 技术日新月异的当今,过多回顾历史版本的技术能力无助于探讨本文的主旨话题。所以,仅从 2023 年以来发布的基础模型中挑选一些较为关键的模型,以作管中窥豹。如下图所示,沿着时间脉络列举了近二十款重要模型,涉及文本、图像、语音等多种模态。
从模型多样性、性能炸裂程度来看,当前 AI 领域的“卷王”是 OpenAI
对比测评
为了衡量 AI 的能力,历史上有许多人提过很多有意思的测试方法,学术界也有各种各样的定量研究方法。
关于测试方法,其中很有名的一个是“图灵测试”,它是为了探究机器智能是否具备与人类相似或无法区分的能力;关于定量研究,普遍的做法是定义某种任务的测评数据集,对 AI 进行测评打分,然后对比 AI 与 Human 的得分高低。
2.1 基于图灵测试
图灵在 1950 年的论文中预测,“大约 50 年后,人们将有可能对存储容量达到 109 左右的计算机进行编程,使其在模仿游戏中表现出色,以至于一般提问者经过 5 分钟提问后做出准确判断的几率不超过 70%”。即,AI 系统的通过率达到 30%(目前不清楚图灵为何选定这个值)。时至今日已过去了 70 多年,图灵的预测到底达到了没有?针对大模型的图灵测试,UCSD 专门有人在研究。他们在 2023 年 10 月[论文]、2024 年 5 月[论文]先后共发表了 2 篇论文,以分享他们最新的研究进展和结论。
根据其 2024 年 5 月的最新研究论文,在图灵测试中,GPT-4 有 54%的情况下被判定为人类。这个值意味着什么呢?它意味着 GPT-4 的通过率超出了图灵当年提到的 30%这个值,还意味着 GPT-4 被判定为人类的概率超过了五五开。
从这个意义上讲,GPT-4 已经通过了图灵测试。此外,在该测试中,人类被判定为人类人概率为 67%,也就是说人的表现还是更像人。
2.2 基于基准测评
用特定任务下的基准数据集做测试,在某些任务上大模型开始超越人类。比如,图像分类(2015)、基础阅读理解(2017)、视觉推理(2020)、自然语言推理(2021)、多任务语言理解任务(2024.1, Gemini Ultra)。但是,在复杂认知的任务上,AI 仍然不及人类,比如视觉常识推理、竞赛级的数学问题。如下图所示,虚线是人类的水准,其它实线是 AI 在不同任务下的得分。
随着算法模型的迭代,某些经典测试基准的准确率已经很高,模型的性能也趋于饱和。所以,新的、更难的基准数据集也在被推出。因此,AI 是否超越人类与具体的任务和测试集有关。通俗地说法是,张三、李四都得了 100 分,指的是他们在试卷上的表现,换张试卷可能结果会有不同。
分领域详情
尽管第二节的内容能够从总体上反映出 AI 的能力现状,但仍然难让人“深有感触”。所以,要想更具体的感受到 AI 当前在各种不同任务场景下的能力,还得看得更细一点。本节将从自然语言任务、图像处理任务、语音生成、等方面,详细介绍 AI 的能力表现及效果。
3.1 自然语言任务
目前 AI 在自然语言理解方面的具体能力如何?本节将基于常见任务的测评基准,分别展开介绍。从我平时关注的、行业较为流行的 5 个测评基准来看,AI 的得分均已经超过了人类水平。
3.1.1 溯因自然语言推理(aNLI)
https://openreview.net/attachment?id=Byg1v1HKDB&name=original_pdf
如下图所示,该类任务基于给定的若干“观察”(O1、O2,通常不完备),选择出最可能的“推测”(H1、H2、H3 中最可能的一个)。
比如:当你下班回家,看到房里乱糟糟的,你会作何猜测?你首先会回忆,早上好像窗户没关紧;然后,你会推测,是不是风吹的、或者是小动物捣乱、或者是有贼人到访?这是一个很有意思的测评方式,因为人们日常生活中充满了这类场景。
在这种场景下,AI 表现如何?aNLI 数据集给出了近 17 万对训练样本、1532 对测试样本,目前 SOTA 算法准确率达到 93.7%左右(2022/5/12),超出人类水准的 92.9%。
3.1.2 基础阅读理解(SQuAD1.1)
Stanford Question Answering Dataset(SQuAD)是由 Rajpurkar 等人提出的一个抽取式 QA 数据集(闭集),v1.1 版本在 2016 年 EMNLP 的论文中提出。
SQuAD 的答案是 text span,就是以文章原文中的某小一段文字来作为问题的答案。简单地说,就是从段落里“找现成答案”。该数据集包含 10 万多个(问题、原文、答案)三元组,原文来自于 536 篇维基百科文章。
SQuAD 是行业公认的机器阅读理解顶级水平测试,是机器阅读理解领域的"ImageNet",同样是一个数据集、搭配一个竞争激烈的竞赛。
下面给出了样本,大家可以感受一下。目前,该数据集榜单上最高准确率达到了 90.6%(EM,2021),远远超越了人类的准确率 82.3%。
3.1.3 中级阅读理解(SQuAD2.0)
SQuAD 2.0 在 2018 年 ACL 的论文中被提出,该论文是当年的最佳短论文。在 SQuAD1.1 中,段落中一定会有答案,只是在哪个具体位置的问题。
SQuAD2.0 在 SQuAD1.1 的 10 万多个 QA 基础上,又针对相同段落混入了 5 万多个没答案的问题。这些新增的问题由人工刻意编写,使其看起来与相应段落相关、且看似存在合理的答案,十分具有迷惑性,因此难度更高。
要在 SQuAD2.0 上做得好,系统不仅要在可回答的情况下回答问题,还必须确定该段落何时不能支持回答该问题。下面给出了样本示例,大家可以感受下。
目前,该数据集上的最高准确率达到 90.94%(EM,2021),同样显著超越了人类的准确率 86.8%。
3.1.4 英语理解(SuperGlue)
SuperGLUE(General Language Understanding Evaluation)是一个广泛用于测试自然语言理解模型性能的基准测试集合,由纽约大学发布(2020.2.13)。包含 8 个任务,涵盖了自然语言推理、问答、文本蕴含等多个领域,是自然语言理解领域最具挑战性的测试集之一,旨在推动自然语言处理技术的发展。该基准设置了一个总体评估指标:SuperGLUE 分数,即在所有任务上所得分数的平均。目前,榜单上最强模型的得分为 91.3(2022),已经超越了人类的 89.8 分。每个任务都有许多样例,以下是几个任务的样例。
3.1.5 多任务语言理解(MMLU)
多任务语言理解(MMLU)由 UC Berkeley 大学的研究人员在 2020 年 9 月 7 日提出,用于衡量文本模型的多任务准确性。涵盖了 57 个任务,包括基本数学、美国历史、计算机科学、法律等多个领域。为了在这个测试中获得高准确性,模型必须具备广泛的世界知识和问题解决能力。从下面的样例可以看出,虽然都是选择题,但因为领域很多,要都回答正确的话其难度也不小。目前,榜单上最强模型的准确率达到了 90%(Gemini Ultra, 1760B, 2024.1),正式超越了人类专家的准确率 89.9%、也超越了 GPT-4 的准确率 86.4%。
3.2 图像处理任务
目前 AI 在图像处理方面的具体能力如何?本节将基于常见任务的测评基准,分别展开介绍。
3.2.1 图像分类(ImageNet)
ImageNet 是一个“古老”的数据集,由李飞飞团队创建(2009 年 IEEE 论文)。其数据结构按照 WordNet 层次结构组织,每个节点包含成百上千个图像。其主要特征:
规模庞大:总量超过 1400 万张图片、2 万多分类,是当前最大的公开图像数据库之一。
多样性:包含了各种物体和场景,图像涵盖了动物、植物、日常生活物品等等。
高质量标注:图像经过了精确的人工标注,每个图像都有对应的物体类别和位置标签。
挑战性:其中的一些类别具有很高的相似性,使得图像分类任务具有挑战性。
自 2010 年以来,每年都会举办 ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)图像识别大赛,该赛事基于 ImageNet 子集(128、5、10 万张、1000 类)。竞赛和刷榜的历史见证了很多知名神经网络模型的诞生,比如 AlexNet、VGG、GoogLeNet、ResNet、Inception、DenseNet 等模型。各类模型基于 ImageNet 持续创新迭代,准确率从从最初的 71.8%持续提升,并超越了人类的识别率 94.9%,所以该竞赛自 2017 年起不再举办(但仍可刷榜)。有人就会问,不就是一个看图识物么,难在哪里?以看图识狗为例,其在 ILSVRC 竞赛中的类别达到 120 种。由于数据太难、模型普遍不给力,所以当时的评估用采用 Top5 准确率(让你答 5 次,有 1 次对得上就算准确)。在 2017 年 ImageNet 竞赛中,最强模型的 top-5 准确率达到了 98%,而人眼辨识的 Top5 错误率大概为 5.1%(乐观估计则为 2.4%)。但当时最高的 top-1 准确率只有 82%。
目前,Top5 已经成为过去式,最强模型的 Top1 准确率都已经达到了 92.4%(OmniVec ViT, 2023.11)。我暂未找到人类 top-1 准确率的报道(如有人发现,敬请补充)。
3.2.2 图像生成(HEIM)
图像生成包含了多种场景,比如文生图、图生图、图像编辑、3D 重建等等。
文生图:通过文本提示词生成图片
目前,文生图比较著名的模型有 DALL-E(OpenAI)、MidJourney、StableDiffusion。
一种评估文生图的方法,是 2023 年 Stanford 研究人员提出的 Holistic Evaluation of Text2Image Models (HEIM)基准,它从 12 个方面全面评估生成器的能力,比如文图一致性、图片质量、美学。目前 DALL-E2 3.5B 在文图一致性方面显著领先,但尚未有模型能在所有维度全面领先。
文生图:通过文本编辑图片
通过文本提示词输入,实现对图片的编辑。这种情况下如何评价模型生成的好坏,是存在难度的。目前,EditVal 是最近新出的测评基准,用于文本引导图片编辑场景,该基准包含了 13 种编辑类型(比如调尺寸、加东西、改位置、目标替换,等等)、涉及 19 类目标。目前,各类模型的准确率普遍不高。下图是该测评基准中的样例。
文生图:辅助图片引导的图片生成
通过文本来生成图片的一个问题是,难以精准控制图片内容的空间构成,比如复杂的布局、特定的姿势、不同的形状。理论上可以针对特定的场景进行模型的 Fine-Tuning 来实现,但实际样本的有限性、场景多样性,使得这种方式的训练并不好做。2023 年,斯坦福大学推出了一种新的模型:ControlNet。这个模型对于提升文生图的精准度具有非常重大意义。
文生图:text-to-3D geometries
论文:https://arxiv.org/html/2308.16512v4基于文本输入,生成一组 3D 多视角的图片。典型代表是 MVDream(ByteDance&UCSD,生成 256*256 的图片),它是一个从文本到多视角图像的生成模型,同时从 2D 和 3D 的数据中学习,达到在 2D 下的泛化性以及 3D 渲染的一致性。
文生图:3D 图片编辑
Berkeley 的研究人员开发了一个模型(Instruct-NeRF2NeRF),能基于文本指令来对 3D 图片进行编辑。
文生图:3D 重建
所谓 3D 重建,是指基于 2D 图片来生成 3D 几何体。这有啥用呢?比如,医疗图像、机器人、虚拟现实。2023 年发布的 Skoltech3D 数据集,用于多视角 3D 表面重建。该数据集包含了 140 万张图片,来自 100 种不同视角、14 种不同光照条件的 107 个场景。
图像处理:图生 3D
2023 年,牛津大学研究人员提出的 RealFusion,可以基于单张图片生成完整的 3D 模型,从而实现 3D 重建。它先是基于 2D 的图像生成器生成物体的多视角图,然后将它们组合成 360 度的模型。
3.2.3 语义分割
语义分割就是将图片中的各种目标进行像素级的分割,是图像处理领域非常重要的一个分支问题。通常,语义分割模型基于特定数据的训练后,只负责从图像中分割出特定类别的目标。
2023 年 Meta 发布的模型 Segment Anything(SAM),则实现了通用分割能力,能将一张图像中所有目标都分割出来,为该技术领域开辟了新的方向。
为了实现同一张图上的多类目标、或非特定目标的分割,学术界曾提出了交互式图像分割方法,其中代表者是 RITM(三星电子的三星研究院 Samsung Labs);而 SAM 在 23 个语义分割任务测评中,有 16 个领先 RITM 模型,成为领域内最强模型。
AM 是一种可提示的分割系统,对不熟悉的对象和图像进行零样本泛化,无需额外训练;根据点或框等输入提示生成高质量的对象遮罩,可用于为图像中的所有对象生成掩膜。
官网 Demo 地址:https://segment-anything.com/demo
3.2.4 图像理解(VisIT-Bench)
VisIT-Bench 是一个用于评估“指令遵循视觉语言模型”(Instruction-following vision-language models)的新基准,针对的是真实世界的使用情况。包含 70 个“指令类型”、592 个测试用例,包括图像、指令、人工描述和验证后的生成结果,涵盖从识别到推理等各种技能。A sample VisIT-Bench instruction set
An example of a multi-image instruction task from VisIT-Bench
截至到 2024 年 1 月,GPT-4V(GPT-4 Turbo 的视觉版)是该基准上表现最好的模型。其得分达到了 1349,超越了人类水平参考分。
3.3 语音生成
2023 年可以说得上是音频生成领域重大突破之年,涉及的音频合成既有人声演讲、也有音乐生成。一些重要的音频生成器,比如 UniAudio、MusicGen、MusicLM,等等。这些模型的能力到底达到了什么程度?
3.3.1 音频生成
UniAudio 是一种基于语言模型(多尺度 Transformer 模型)的用于音频内容生成的技术,于 2023 年 10 月 9 日发布(港中文、CMU、微软亚洲研究院、ZJU 等),拥有 1B 参数。经过 16.5 万小时的音频上进行了训练,支持 11 种不同的音频生成任务(超过了音频研究领域的所有其他模型)。与当前 LLMs 一样,它统一化地对所有音频类型进行分词,采用逐词预测的方式来生成高质量的音频,能够生成高质量的语音、声音和音乐。UniAudio 在 11 种任务中表现出来竞争力、并在若干任务中超越了其它先进方法,比如 Text2Speech、语音增强以及语音转换等任务。
3.3.3 语音处理
Whisper V3 是 OpenAI 在 2023 年 11 月推出的语音模型,用于语音识别、语种辨识、语音翻译。该模型在 68 万小时的多种语言、多种任务的数据下进行了训练;不同于 Wav2Vec 等使用无监督方法训练的预训练语音大模型,Whisper 使用弱监督训练的方法,可以直接进行多任务的学习,而不需要针对特定任务做 finetune。其准确度、可靠性都接近与人类水平。
官方样例:https://openai.com/index/whisper/
3.3.2 音乐生成
Meta 的 MusicGen 是一种新的音频生成模型,也是利用语言模型中常见的 transformer 架构来生成音频。MusicGen 可以基于简单的文本描述来创建高质量、免版税的音乐,并直接在项目中使用。
该模型使用了 1 万小时的“高质量”授权歌曲和 39 万首器乐曲目进行训练(与版权持有人签订了法律协议)。测评研究显示,MusicGen 在各种生成音乐评估指标上超过了其他流行的文本到音乐模型,如 Riffusion、Moûsai 和 MusicLM。
特点:
更低的 FAD 分数,意味着更可靠的音乐生成;
更低的 KL 得分,意味着与参考音乐有更好的一致性;
更高的 CLAP 得分,说明能更好地依循参考音乐的文本描述来进行创作。
此外,因其整体更好的质量,使得人类评估者对其更加青睐。
尽管 MusicGen 优于同年早先发布的一些 Text2Music 模型,但 MusicLM 值得一提;因为与其一起发布的还有 MusicCaps 数据集,是一个包含 5500 个“音乐-文本”对的 SOTA 数据集。
MusicGen 的研究者用该数据集对他们的系列模型进行了基准测评。MusicsGen 模型以及 MusicCaps 数据集基准的出现,意味着生成式人工智能已经不再局限于语言和图像,而是拓展到了更多样的模态比如音频生成。
官方样例:https://about.fb.com/news/2023/08/audiocraft-generative-ai-for-music-and-audio/
写在最后
本文基于常见任务的测评基准,从自然语言理解,图像处理,语音生成三大方面对 AI 进行实测。因此,我们可以更加清晰了解到哪些能力是 AI 具备的、哪些是不具备的。在下期文章中,我会向大家展示 AI 在视频生成、代码能力、AI 推理等方面的能力表现及效果。
篇幅较长、又限于个人水平和视野,故难免存在不准确之处,敬请批评指正。欢迎探讨和交流。
版权声明: 本文为 InfoQ 作者【可信AI进展】的原创文章。
原文链接:【http://xie.infoq.cn/article/568f5a0a8cd8b0e287aa0d0b1】。文章转载请联系作者。
评论