写点什么

百度 AI,和“吴文俊奖”同行的十二年、千丈山、万里路

作者:脑极体
  • 2023-05-07
    天津
  • 本文字数:3896 字

    阅读完需:约 13 分钟

今天,AI 正作为一个科技发展周期的轴心,成为万众瞩目的焦点。与历史上数次技术革命和 AI 浪潮所不同的是,这次 AI 的全球领先阵营里,有了中国的身影。

从一个学术灵感,到一项全球领先的专利技术,从一篇顶会论文到一个宏大的 AI 产业布局,中国 AI 的量变和质变,凝结了无数人扎根在泥土中一步一个脚印的寸进。

5 月 6 日,第十二届吴文俊人工智能科学技术奖颁奖典礼正式举办。其中,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰带领团队完成的“知识与深度学习融合的通用对话技术及应用”成果,荣获“2022 年度吴文俊人工智能科技进步奖特等奖”,这也是“吴文俊奖”首次评出特等奖。


这一个特殊的时刻,承载了一个“中国人工智能最高奖”、一个中国 AI 科学家、一个中国 AI 科技企业的十二年光阴。

如果大家对中国 AI 如何一步步前行而感到好奇,那么这个奖项正好是机会,可以看到一个人和一家企业,究竟是如何征服山岭的。

敢登千丈山:和“吴文俊奖”同行的百度攀山路

这两天,大家一定看到了很多“吴文俊奖”的消息。

将时间退回到 2011 年,中国人工智能学会刚刚发起“吴文俊人工智能科学技术奖”的那一天,绝大多数人都无法想象,中国 AI 能有这样的盛况。

十二年,对于“吴文俊奖”,以及百度和王海峰,都是一条值得感慨的时间旅程。

十二年前,刚刚发起的“吴文俊奖”规模尚小,第一届只颁出了五个奖项,获奖者大多来自北京邮电大学、中科院自动化所等高校院所。十二年来,该奖先后授予了两百多个单位和行业机构,以及七百多位专家学者,见证了中国 AI 学术力量和产业力量的崛起。

这个中国 AI 酝酿量变的过程,百度的身影一直都在。

早在 2010 年,大部分人对 AI 的想象,还跟科幻电影一样,觉得非常遥远、看不懂的时候,百度已经开始积累 AI 技术。2010 年,王海峰加入百度,推动 NLP、知识图谱、深度学习等 AI 技术进入新的应用空间。

百度技术进入了新的阶段,一系列 AI 布局接连启动。比如 2010 年成立的百度自然语言处理部(NLP),是百度历史最悠久的基础技术部门之一;2013 年,百度深度学习研究院(IDL)成立,是中国产业界最早触摸深度学习技术的机构之一。随后百度又相继打造了大数据实验室 BDL、硅谷人工智能实验室 SVAIL、百度研究院等研究机构。

正是与 AI 的结缘够早、够深,百度才能在人工智能领域达成全面领先,第一个看到未知的远处风景。


王海峰,作为推动 AI 产学研融合的一面旗帜,是“吴文俊奖”十二年历史中,首个“吴文俊人工智能杰出贡献奖”的获得者。

王海峰团队的“知识与深度学习融合的通用对话技术及应用”,则拿下了吴文俊人工智能科技进步奖首个特等奖。

从中,我们也可以看到,“吴文俊奖”究竟在嘉奖什么。

能够让代表中国人工智能领域最高荣誉的“吴文俊奖”,打破常规,因为百度 AI 不断深入技术无人区,主动探索那些未被发觉的地带。

以此次获“特等奖”的 “知识与深度学习融合的通用对话技术及应用”为例,这一研究项目解决了该领域的四方面技术难题:

提出了基于知识统一表示的通用对话管理技术,解决了对话不连贯的难题;提出了融合知识的流式对话语音识别技术,解决了对话听不清的难题;提出了知识增强的通用对话理解技术,解决了理解不准确的难题;提出了基于隐变量与知识的对话生成技术,解决了回复有错误的难题。

王海峰在发表获奖感言时提到:“通用对话技术是人工智能领域最具挑战性的方向之一,也被认为是通用人工智能的必备能力。团队多年来持续在技术上探索和创新,突破了知识与深度学习融合的通用对话技术,目前已广泛应用于各行各业和人们生产生活中。”

敢登千尺山的百度,最终和“吴文俊奖”一起,见证中国 AI 一路走来,和世界顶峰相见。

深耕 AI 路:夯实底层技术,长出文心一言

对于首个吴文俊人工智能科技进步奖特等奖,院士专家给出了这样的评语,“整体技术指标与应用效果达到国际领先水平,极大地提升了我国在这一领域的科技竞争力和产业影响力”。

不难看到,学术高度与产业广度,是百度获奖研究项目的两大特点。

据了解,百度的通用对话技术已经获授权发明专利 82 项,发表高水平论文 36 篇,在国际权威评测中获得了 11 项世界冠军。同时,其也实现了大规模的产业应用,基于小度等业务,支持了 5 亿智能设备的对话能力提升,服务了超过 10 亿用户,其应用领域覆盖通信、金融、汽车、能源等 20 多个行业。

如今,百度在通用对话技术上的积累和突破,也经由技术蓝图,流向了全新的领域。比如让全球瞩目的 AI 新贵:大语言模型。

很多人都认为,文心一言是全球第一个由科技大厂自研的大语言模型。它的出现让中国快速跻身全球 LLM 的第一梯队,为中国 AI 争取到了更大的战略空间,而文心一言的背后,就有成熟的通用对话技术作为支撑。


对话增强是文心一言的核心技术特征之一,让文心一言具备更强的上下文理解、多轮对话能力,强化文心一言对话的完成度、连贯性、合理性,而对话增强,就是百度基于通用对话技术优势的再创新。百度提出了全球首个基于隐空间的生成式开放域对话大模型文心 PLATO,不断提高模型的内容丰富性和连贯性。文心 PLATO 是百度研发的具有大规模参数的中英文对话预训练生成模型,经历多次升级,现已升级到百亿参数的文心 PLATO 版本。正是长期积累下来的通用对话技术,让文心一言具备了对话增强这个关键优势。

除了对话增强之外,文心一言还具备知识增强、检索增强等技术特点。


在知识增强方面,得益于百度构建的 5500 亿事实的知识图谱,以及早在 2019 年 3 月就提出了知识增强的语义理解框架 ERNIE,百度不断强化语义理解技术能力。

文心一言基于庞大的知识图谱来做知识增强,从海量数据和大规模知识中融合学习,还可以直接调用知识图谱做知识推理,自动构建提示,高效满足用户需求。

而检索增强也是基于百度已有的语义理解技术优势的创新。百度拥有世界上最大的中文搜索引擎,百度搜索已经发展到基于语义理解和匹配的新一代搜索架构,深入理解用户需求和网页内容,进行语义匹配,得到更精准的搜索结果,进而为大模型提供准确率高、时效性强的参考信息,更好地满足用户需求。

更值得一提的是,文心一言还在飞速成长中。

王海峰在一次采访中透露,在内测时,有员工疑惑,文心一言怎么写不好藏头诗,而当时文心一言还处于学习阶段,王海峰很有信心,说“差不多明后天就能学会了”,果然第二天文心一言就能写藏头诗了。王海峰说:“信心就是因为我们对系统的能力有比较准确的把握。”

最近,飞桨又专门针对文心一言做了专项优化,一个月内迭代了 4 次,推理性能提升 10 倍,其中业内首创的支持动态插入的分布式推理引擎,推理性能提升了 123%。

可以说,文心一言的各个方面,都展现出了百度夯实底层技术,系统化积累技术优势的技术战略。显然,王海峰的技术视野与技术关怀,在其中扮演了关键角色。

技术攀登是一个非常漫长的过程,如果没有对于技术动能的持续补充,可能因为“体力不支”,而无法坚持到登顶的那一天。基于文心大模型 ERNIE 及对话大模型 PLATO 的文心一言,能走的更远、更快,靠的正是百度 AI 技术的持久续航。

青山遮不住:百度 AI,向产业冲锋

从“训大模型”到“用大模型”,已经成为中国产学政各界这一波大语言模型浪潮的深层期待。

如何穿越 AI 与产业之间的无人区,走向千行百业,与社会更具深度地融合,是今天摆在科技企业面前的新挑战。

文心一言的技术核心,来自百度积累了十余年的四层架构:芯片、框架、模型、应用,这一整套技术体系,共同支撑文心一言向产业冲锋。

芯片层,百度有自研的量产 AI 芯片昆仑。同时,百度还跟硬件行业上下游建立了紧密的合作,与主流国内外芯片厂商进行了非常好的适配,所以任何一家有合适的 AI 算力,文心一言都能用得起来,这就保障了后续 AI 业务发展所需要的算力资源。


框架层,百度自主研发的中国首个开源开放的产业级深度学习平台飞桨,支撑了大模型的灵活开发、高效训练和推理部署。

模型层,文心大模型 ERNIE 及对话大模型 PLATO 等自研模型已经证明了,文心一言的核心技术都是掌握在中国企业手里。

应用层,百度已经打造并开放了 200 多项 AI 能力和应用,并在飞桨平台提供大量应用模型、开发者工具,以及定制化服务,帮助各行业更简单地将 AI 用起来。

这四层架构,合在一起,展现出百度 AI 布局的全面与长远,也成为文心一言持续向上攀爬的保障。

用王海峰的话说,有了百度独特的技术和积累,能给普通用户带来不一样的感受:一是效果更好,文心一言能记住上下文,给出更新的信息、更准确的知识;二是效率更高,模型推理效率提高,用户等待的时间更短了。

从中,我们能看到,百度 AI 在产业中鲜明的差异化特征:

1.向上,保持核心技术突破,勇于探索技术无人区,主动承担了全球范围内底层技术的突破任务,保持着中国 AI 与世界最前沿的并列或领先。

2.向下,做实 AI 基础设施,确保产业自主可控。大模型训练推理,需要芯片、框架、开发工具等一系列软硬件,核心基础设施不能掌握在自己手里,产业使用时就会有顾虑。百度在 AI 领域四层架构实现了全面的核心技术自研,解除 AI 产业化和产业 AI 化的后顾之忧。

3.向前,带头构建产业生态,打通大模型到产业的关隘。通过开源开放的飞桨生态,以及飞桨产业赋能中心,把 AI 技术沉淀下去、开放出去、让各行业都用起来,帮助更多人爬上 AI 这座高峰,看见路前方的风景。


此时再回眺百度 AI,会发现领先不是一个结果,而是由一个个技术脚印所串联起来的过程。这些过往凝结在一起,才有了我们熟悉的百度 AI,与新生的文心一言。

获得“吴文俊奖”,顶峰之上的百度,正在攀登更高的山。大模型所开启的 AI 与产业融合之路,有如一片未知的土地,蕴藏着极大价值可能性,但也充满了变数,需要勇敢者先抵达彼端,一探究竟。

十二年弹指一瞬,走在科技前沿的百度,已踏上天地重开一境宽的新旅途。青山万丈,遮不断赤子的眼眸;雀喧鸠聚,挡不住行者的脚步。

发布于: 刚刚阅读数: 4
用户头像

脑极体

关注

还未添加个人签名 2020-06-12 加入

还未添加个人简介

评论

发布
暂无评论
百度AI,和“吴文俊奖”同行的十二年、千丈山、万里路_百度_脑极体_InfoQ写作社区