登顶 Nature 正刊!百度生物计算用 AI 首次实现 mRNA 领域重大进展
1985 年 11 月 21 日的《自然》封面,是一张来自中国的“地图”。这张地图是清代总兵陈伦炯所编撰《海国闻见录》中的插图,是中国人开始认知与探索世界的见证,而选用这张封面,是为了配合当期的特别文章《科技在中国》。
那时候,中国正处在改革开放的浪潮中,中国科技登陆国际视野还显得惊奇与稚嫩。
一转眼,38 年过去,伴随着中国科技的飞速发展,越来越多的中国科研工作者、科研机构以第一作者的身份,登上被称作科学金字塔尖的《自然》。
5 月 2 日,《自然》杂志正刊发表了百度在生物计算领域的突破性研究成果,并以“加速预览”(Accelerated Article Preview)形式最快发表。
在这篇题目为《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》的文章中,提出了 mRNA 序列优化算法 LinearDesign。其不仅开创了 AI 与生物、医疗等领域融合突破的诸多可能性,也为中国科技走向世界画上了新的一笔。
在这篇论文里,我们可以读到远超其成果本身的内容,比如 AI 的诸多可能性、一家科技企业的科学担当,以及中国科技走向世界的远大胸怀。
“出人意料”的生物计算
相信大家都知道,《自然》只收录那些在基础科学领域具有突破性与重大意义的研究。
或许可以说,百度在生物计算领域的探索,生动讲述了什么叫“永远不要低估 AI 的可能性”。
这件事要从新冠疫苗讲起,虽然疫情的阴霾已经悄悄过去,但这场疫情让全球看到了疫苗,尤其是 mRNA 疫苗在公共卫生事业的重要性。
所谓 mRNA 是一种天然分子,其可以产生靶标蛋白或免疫原,从而激活人体的特定免疫反应,以对抗各种病原体。并且其具有 mRNA 不带病毒成分、没有感染风险、研发周期短等重要优势,是人类对抗新冠疫情的杀手锏。
但如此重要的领域,在疫苗和药物研发中依旧有一些问题,比如如何才能高效设计出稳定、成药性更好的 mRNA 序列?
为了解决这个问题,百度基于在 AI 领域的积累“出人意料”地将 AI 技术与疫苗研发结合,研发出了登录《自然》杂志的 LinearDesign 算法。
这一算法运用自然语言处理中网格解析(Lattice Parsing)技术,对 mRNA 疫苗序列进行优化,从而提升疫苗的稳定性和有效性。
(美国心脏病学家和基因组学家埃里克·托普(Eric J. Topol)在推特上分享百度 LinearDesign 算法)
这里划个重点,LinearDesign 算法可以说是用语言学领域的知识去攻克了生物医疗上的难题。两个领域虽然不能说毫不相关,基本也是相隔万里,但是百度对 AI 技术的探索,却让二者完成了千里姻缘一线牵,LinearDesign 算法由此诞生。
2020 年 5 月,面对汹涌而来的疫情,百度研究院推出了全球首个 mRNA 疫苗基因序列设计算法 LinearDesign,并宣布向全球疫苗研发机构及研究中心免费开放。LinearDesign 能在 16 分钟完成新冠病毒的 mRNA 疫苗序列设计,极大加速新冠疫苗的研发效率。
以新冠病毒的 Spike 蛋白为例,若采用传统方法寻找一条稳定的 mRNA 序列,需要查看 10632 个 mRNA 序列,堪称天文数字,但用 LinearDesign 算法,却可以在 11 分钟之内找到最稳定的候选序列。
2020 年 12 月,百度凭借 LinearFold 和 LinearDesign 算法在新冠抗疫中的杰出贡献,荣获国际顶尖人工智能峰会 The AI Summit 举办的 AIconics 奖项的首届“AI For Good(人工智能向善)”奖。
在应用价值之外,LinearDesign 算法还展示了 AI 作为一种底层科学探索工具,在生物与医学领域的全新可能性。这种跨越学科的突破力,是《自然》杂志乃至全球科学界更为珍视的。
打开 AI 的深度与广度
为什么百度能把 LinearDesign 算法这种 AI+生物计算研究做大做强?这可能是我们必须读懂的另一个关键信息。
其原因无他,千锤百炼而已。从 2012 年 AI 方兴未艾,到今天 AI 火爆全球,这期间百度对 AI 技术的坚持和探索是始终如一的。这种坚持,渗透到了 AI 技术的各方各面,包括基础设施研究、算法迭代,以及 AI 的跨学科融合。其中非常多的领域充满未知与挑战,也不符合传统意义上企业对短期利益的追求。但构建坚实的基础设施,探索前瞻性技术布局,却是一家企业赢得未来的关键。
AI+生物计算,作为 AI 技术的延展性方向,更能体现出百度“淡化短期利益,着眼长期发展”的技术布局思路。生物计算可以解决蛋白质分析、新药研发等关键问题,其价值巨大,以新药研发为例,这个领域具有一种“3 个 10”特征,即 10 年、10 亿美元、10 万人才能研发出一种有效的新药,而如果用 AI 作为药物研发引擎,将可以极大程度改变新药研发的范式,带来难以估量的价值。
这条路价值虽大,但充满挑战,在短期内都难以实现商业回报,但百度依旧愿意依托 AI 技术与基础设施的优势,提前布局这条未来之路。早在 2018 年,百度就正式启动了计算生物方向的研究。几年过去,百度在这一领域已经构建了基础设施、算法、生态合围而成的立体创新版图,比如刚刚提到的 LinearDesign 算法、可以极大加快 RNA 结构预测速度的 LinearFold 算法,一系列创新开始勾勒出百度在生物计算算法层的差异化优势,而基于飞桨生态打造的生物计算平台-螺旋桨 PaddleHelix,则开启了 AI+生物计算底层开发工具的构建,为产学各界探索生物计算奠定了基础。面向产业生态,百度为产业提供了面向化合物分子、蛋白分子、基因组学信息等领域预训练大模型,将自身的技术优势积极投身到产学研协作当中。就像在 AI 基础设施层面,百度强调技术、生态与基础设施的并行,在生物计算领域,同样的战略落地方式也推动了百度自身与生物计算行业的积极发展。
企业进行跨学科探索与底层技术创新,强调长线程和重积累,只有构建出完整的技术序列、技术体系,才能在此基础上一鸣惊人。无论是在 AI+生物计算领域,还是更为基础的 AI 技术上,长期主义,始终是百度的王牌。
这样的以重积累换取高效率的逻辑,展现在百度技术创新的方方面面。比如文心一言发布后的 1 个月内,完成了 4 次技术迭代,相较最初版本推理效率提升了 10 倍。这种技术迭代与产业化应用的效率从何而已?其中,飞桨支撑了文心一言从开发训练到推理部署的全流程,并且通过联合优化的方式,大幅提升了大模型的训练与推理。从中就可以看出,底层技术与工具链的长期积累,为新技术的高效率升级奠定了基础。
百度是如此打开 AI 技术的深度,中国科技也是如此打开走向世界的广度。
大国科技走向世界
1985 年 11 月,《自然》杂志探讨了中国当时在高能物理、空间探索、地震预测等领域的科研水平,向世界展示了一个具有蓬勃科研创新活力的中国。
2008 年 7 月,《自然》借着北京奥运的机会发布了中国特刊,向世界介绍了“中国目前论文发表数量比除了美国以外的其他国家都要多”,确定了中国科研实力的地位与价值。
几十年来,《自然》里的“中国元素”,可谓与中国科技发展完美同频,比如在 1997 年时《自然》发表的原创科研论文中只有 0.4%涉及中国作者,2017 年已增至约 15%。这个数字的变化,恰好佐证了中国科技走向全球的变迁。
在这个过程中,一个角色是不可或缺的,那就是科技企业在整体科研环境中扮演的角色。自信息革命以来,我们可以在欧美发达国家的科技版图中,看到很多重大创新都是由企业来完成。以 AI+生物计算为例,DeepMind 打造的 AlphaFold2 广受关注。而谷歌母公司 Alphabet,已经在持续推动这一算法在医疗健康、新药研发等领域落地,打造了 ChatGPT 的 OpenAI,也在 AI 疾病诊疗、AI 蛋白质结构预测等领域进行着探索。
从世界范围内的趋势来看,AI+生物计算这一重要领域,主要创新阵地应该在科技企业,并且需要以科技企业为核心,形成产学研互动的良性生态。而百度在生物计算领域的布局与进取态势,则在中国科技版图中补完了这一环节。
中国科技走向全球,走向科技自立自强,离不开企业科研能力的不断升级。从这个角度看,百度生物计算以第一完成单位身份在《自然》发表论文,可以看作一个新阶段的信号。1985 年,是世界看到中国科技;2008 年,中国综合科研能力跻身世界前列;今天,中国的科学家、学术机构、科技企业,都能作为第一作者登上《自然》,证明中国已经具备了多元化,立体化的科技能力。
中国科技的创新性和独特性,已经从学术界延伸到产业界,更具有世界眼光,更具有大国担当。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/fc6df1c5c8e6f252017d9d0a1】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论