开疆作剑,开荒为犁:2022 春天,文心大模型走进产业的百花深处
在联合国总部的花园里,矗立着一尊青铜雕塑,名为“Let Us Beat Swords into Plowshares”,一个人手拿锤子,正在将剑改铸为犁——“铸剑为犁”,代表了近一个世纪以来,人类社会对于文明与发展的共识:将武器变为创造的工具,以造福全人类。
而在人工智能领域,作为发展关键技术的预训练大模型,也同时具备了剑与犁的两种属性——
开疆做剑:大模型在全球掀起了军备竞赛,参数规模不断升级,文心等大模型的出现,意味着中国将这一 AI 利器握在了手中,守住了智能科技的疆土;
开荒做犁:借助大模型强大的通用能力和开源开放,千行百业和开发者也因此受益,不必从零开始,可以低门槛地“开荒”引入 AI,启动智能化转型升级。
近几年,面对全球经济和政治形势的不确定性,人们从未如此迫切地渴望过,将科技“铸剑为犁”,大模型也应当从军备竞赛变为产业发展的新动能。
如何才能让大模型“铸剑为犁”、服务于民生百业?我回想起了一件往事。
2019 年的时候,大模型还算是各大科技巨头的“不传之秘”,某实验室就因为不愿意开放最新的大模型,被业界嘲讽是 CloseAI(封闭 AI)。而百度在当年发布了中国首个正式开放的预训练模型 ERNIE 1.0(产业级知识增强大模型文心的前身),却没有藏器待时,而是直接开启了大模型落地应用的探索,聚焦“产业智能化”。
这件事令我记忆犹新,可以说,以百度为代表的中国 AI 力量,在大模型趋势初现之际,就选择了“铸剑为犁”、造福产业的发展方向。
那么,时间来到 2022 年春,大模型能够为普通人和千行百业所用了吗?
4 月 16 日,在刚刚结束的 2021 百度认知 AI 创意赛“AI 创意派”决赛现场,我得到了 AI 大模型一些最新动向。简单来说:1.大模型加速落地应用,展现出走进产业深处的无限可能;2.文心大模型应用门槛持续降低,公众首次参赛,释放出 AI 创意的无限遐想。
在这个乍暖还寒的春天,跟大家分享一下产业和个人,如何在当下用 AI 大模型种植希望。
几度春风:AI 大模型走进产业的百花深处
在你的印象中,都是哪些人在使用 AI 大模型?用 GPT3 训练出“碾压人类”小作文的,是世界顶尖算法工程师;用 AlphaFold 预测蛋白质的,是全球顶级 AI 实验室;还有炸裂眼球的 AI for science 大模型,是为预算几乎无上限的科学任务所准备的……这些 AI 大模型,千行百业的普通人不会用,也用不起。
难道,大模型注定与普通人无缘了?在 2021 百度认知 AI 创意赛“AI 创意派”上,百度文心大模型,为我们展现了另一种打开方式。
正如百度集团副总裁吴甜在比赛现场所说:“只有人工智能和大模型的门槛,低到了所有人都可方便地用起来,才能真正大规模爆发出各种创意。本次创意赛中,选手展现了基于文心大模型的丰富创意,让我们看到了大模型广泛应用的前景。”
这个“铸剑为犁”的产业化过程,是怎么发生的?
第一步:技术的锻造。
与实验室里的算力怪兽、规模巨兽不同,面向产业落地应用的大模型,还有许多技术难题需要攻克,解决成本、效率、部署等问题。为此,百度做了许多技术创新工作。
一方面,不断提升参数规模和模型效果。2021 年 12 月,ERNIE 3.0 升级为全球首个知识增强千亿大模型,成为目前为止全球最大的中文单体模型,这也意味着通用能力更出色,泛化能力更强,只需学习少量行业数据,就能够应用于很多业务场景,降低企业的应用门槛。
另一方面,为了保证超大规模模型的学习效果,百度产业级深度学习平台飞桨自主研发了端到端自适应分布式训练框架与 4D 混合并行技术,有效支持文心大模型高效稳定的训练,让产业用户可以低成本地使用。
在技术的锤炼下,才能锻造出一个产业可用、好用的大模型,真正支撑产业应用。此次吴甜也提到,大模型未来的发展趋势之一,将是技术的持续创新。
第二步:产业的熔炉。
目前,产业在落地应用 AI 上遇到的普遍阻碍,就是行业 know-how 与 AI 模型的不相融,无法解决真实复杂的业务问题。传统深度学习是“蛮力计算”,无法理解数据深层的含义。
作为产业级大模型,文心与其他大模型的核心差异之一,就是为产业与 AI 的融合增加了一个关键的催化剂——“知识增强”,将大规模知识与深度学习相结合,让 AI 能够理解特定领域数据背后所隐含的知识关系,从而提升理解能力。
举个例子,病历质量控制对于医疗行业非常重要,但掌握全科医学知识的医生很少,医院病案科的医生在进行抽检工作时,病历数量多,工作难度大,依靠有限的知识很难对所有病历做出非常准确的分析和判断。如果 AI 算法不能理解医学知识,也无法很好地帮助病案科工作提质增效。百度在文心大模型基础上加入了药典、医学大百科等一系列知识,再基于大模型训练出医疗相关的模型,达到医学博士的水平,可以对每份病案进行秒级别的智能扫描分析,从而有效提升了病案质控的工作效率。
第三步:大生产的模具。
从农业生产到工业制造,规模化大生产必不可少的就是标准化模具的出现。AI 的规模化应用,也离不开一系列配套工具与平台。
目前,文心大模型支持数百家企业与机构,开发者数量超过 6 万,对外日调量已经超过了五千万次。这是因为,借助百度飞桨、百度大脑等平台和工具,文心大模型的能力能够被各行各业开发者低门槛地应用。
以飞桨企业版零门槛 AI 开发平台 EasyDL 为例,其就基于文心大模型推出了高精度 NLP 模型,最快 15 分钟就可以完成垂直领域的模型训练。哪怕是没有 AI 基础的金融、法律等从业人士,也能通过 EasyDL 一站式自动化训练,用少量数据构建出自动分析合同条款、自动分析金融研报等定制模型。
这些配套工具与平台的支撑,让文心大模型能够进入规模化应用阶段。因此,吴甜也认为 2022 年将是文心大模型产业落地的关键年。
从科学家和工程师手中的神兵利器,到普通人和千行百业的绳墨炉锤,文心大模型“铸剑为犁”,与产业共同孕育出了百花齐放的智能之春。
低吟浅唱:放飞 AI 大模型的无尽想象
哥伦布发现美洲之后,辣椒进入了人类的餐桌;莱特兄弟对天空的向往,拉开了飞行的序幕;乔布斯天才般的创意,智能手机开始主宰你我的生活……每一次技术浪潮,都少不了天才人物的神来之笔,用创意点燃了新技术的无限想象。
AI 时代,大家都不希望中国只能跟在别人身后亦步亦趋,但是,创意从哪里来?
百度给出了一个答案:“创意在民间。”百度集团副总裁吴甜在 AI 创意派的比赛现场这样说道。
民间,意味着要让 AI 大模型为最广泛的人才所用,无论技术水平高低都能参与其中。
此次比赛中,百度首次将 AI 大模型的使用门槛降到了大众级别,吸引了全国各地近 2000 名不同年龄、不同技术基础的选手。“乐植问答”项目的开发者林杰,就是一个农业公司的产品负责人,没有上手开发过。这次基于飞桨 EasyDL 平台使用 ERNIE 3.0,林杰的开发过程还挺顺利,一步步训练出了能够解答植物问题的 DEMO。最近打算自己种菜的朋友越来越多,说不定未来林杰的产品真能拯救植物杀手们。
民间,意味着 AI 创新会贴近真实生活,大模型要能够解决大量细节而具体的问题。
本次创意赛的 300 多份创意方案中,有不少是大厂想不到,普通人却特别期待的。比如哈工大大二学生焕宜就用六天时间,打造了一个“朋友圈古风文案小能手”,只要有图片,分分钟让你变身文案达人,在朋友圈装一把文人墨客,吸引点赞无数。
民间,意味着未知的场景和挑战,大模型会遭遇各种意想不到的用途和场景,也能在实践中得到检验和提升。一个出乎意料的创意就是“反诈疫苗机器人”。
反诈 App 我下过、疫苗我打过、机器人我玩过,但这个“反诈疫苗机器人”究竟是啥,还真是一头雾水。原来,开发者郭成(化名)对自己奶奶的各种反诈骗经历印象深刻,就有了用 NLP 技术来帮助弱势群体识别诈骗套路的想法。报名参赛后,郭成利用百度 ERNIE 3.0 大模型开发了一个对话机器人,用户跟它对话就能从实践中汲取反诈经验,提高防骗能力,相当于打了一针“思想疫苗”。要理解骗子们狡诈诡谲的语言套路,自然就需要机器人具备极高的语义理解、意图识别等能力,而这正是 ERNIE 3.0 大模型的优势之一。
对于广大围观群众来说,一场比赛的创意可能无法全部落地变为现实。但每一个参赛者,一定能够从项目实践中,感受到大模型的真正实力。而 AI 大模型落地应用的无限可能,就藏在这些关注的眼眸、放飞的脑洞之中。
一犁新雨破春耕:文心为智能时代写下风物诗
如果说,文心大模型深入产业,是从诞生之初就开始的“润物细无声”,那么刚刚结束的 AI 创意赛就像是一犁新雨破春耕,让我们格外清晰地看到,大模型如何为 AI 规模化应用插上腾飞的翅膀。
原因也很简单,大模型要服务于产业,必须能够解决那些具体的、细节的、工程化的问题。AI 科学家们讨论的是模型收敛、鲁棒性、认知智能这类专业问题,而当大模型走进千行百业,遭遇的问题则是如同参赛者们提出的一样:如何找到合适的数据集?买不到 GPU 怎么训练?不会调参该如何操作?结果不符合预期怎么办?
大模型要“铸剑为犁”,就必须指导并帮助产业人士解决这些现实问题。显然,通过这次 AI 创意赛,对于上述问题,百度已经有了成功的探索和答案。当然,这不仅仅是文心大模型的功劳,而是百度通过一整套体系,确保大模型能力被融合到产业智能化升级中。
最核心的,就是飞桨与大模型的融合。前面提到的飞桨开发出 4D 混合并行策略、自适应分布式训练等,有效地支持文心大模型高效稳定训练,还有飞桨 EasyDL 等开发平台和工具,也早已开源给社会各界使用。飞桨与大模型的强强联手、融合发展,成为一个技术领先、自主创新、能力坚实、产业可用的 AI 大底座,有力地支撑中国产业智能化转型。
接下来,是云与大模型的融合。产业智能化呼唤着更敏捷、简单、低成本的 AI 获取方式,云服务成为各行各业引入 AI 大模型、基础算法、AI 算力等的必经之路。在这样的大背景下,百度很早就推动了 AI 与云的深度融合,百度智能云作为百度 AI 技术的产业出口,正在将文心大模型推向越来越多的产业场景。
当然,大模型的发展也离不开与人才生态的融合。提到 AI 人才教育,似乎总是伴随着严肃和焦虑,其实不然。中国人所向往的教育最高境界,是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,风乎舞雩,咏而归”。而 AI 创意赛恰恰让我有了这种感受,在文心大模型的臂膀托举下,无数创意自由地、轻盈而舒展地飞扬。当普通人也能且歌且行,融入 AI 创意的洪流,我们还会担心听不到 AI 创新的声音吗?
经过三年耕耘,百度为 AI 大模型确立了从研致用的新范式,推动大模型走向“铸剑为犁”、服务产业的新阶段。
随着更多人与产业加入大模型的合唱,一首智能时代的风物诗,将飘扬在华夏大地的每一个角落。
评论