AI for Science 的上半场:人工智能如何重新定义科学研究新范式?
AI 发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。
万众瞩目下,今年 10 月,有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓,授予了对“链接化学和生物正交化学的发展作出了贡献”的三位化学家,他们分别是美国化学家 Carolyn R. Bertozzi、丹麦化学家 Morten Meldal、美国化学家 K. Barry Sharpless。
实际上,靴子落地前,关于这一奖项到底花落谁家引起了无数热议。其中国际化学领域权威期刊《Chemical Reviews》就曾对该奖获得者进行了读者投票预测,带领 DeepMind 团队开发出能够精准预测蛋白质结构的 AlphaFold 2 的 John Jumper 获得了最高票数。
尽管由于“时间问题”,最终 John Jumper 并未折桂,但在此之前,John Jumper 团队已成功拿到了另一个堪称“豪华版诺贝尔奖”“科学界的奥斯卡”的奖项——2023 年生命科学突破奖(Breakthrough Prize in Life Sciences),这是迄今科研领域里奖金最高的生物学及医学奖项。
为何 John Jumper 及其领导开发的 AlphaFold 会收获如此多的青睐?主要原因在于,AlphaFold 的诞生解决了困扰生物学界半个多世纪的经典难题,即 1972 年诺贝尔化学奖得主 Christian Anfinsen 提出的蛋白折叠问题(Protein Folding Problem)——“蛋白质的氨基酸序列应该能完全决定其结构”。
John Jumper 团队开创性地利用人工智能技术,终于破解了这一著名猜想,不仅让蛋白质结构预测的研究走入一个新阶段,也将人们对“AI for Science(科学智能)”的关注推向高潮。
简单来说,AI for Science 就是让人工智能利用自身强大的数据归纳和分析能力去学习科学规律和原理,得出模型来解决实际的科研问题,特别是辅助科学家在不同的假设条件下进行大量重复的验证和试错,从而大大加速科研探索的进程,如今这一方法已在多个前沿科学领域中取得了显著的成果。
与大家此前耳熟能详且触手可及的人工智能应用相比,AI for Science 所涉及的生物制药、能源、材料研发等科研领域尽管离大众生活看似遥远,但其背后的共同之处在于,利用人工智能来“解放”生产力——让人们能够从许多重复性、机械化的基础工作中释放出来,在人工智能的辅助下进行更高效的生产工作。这正是人工智能的价值和魅力所在。
AI for Science:用人工智能催化一场新的“科学革命”
让我们回到 AlphaFold,从解析蛋白质的技术演进,来观察 AI 的加入到底能给科研带来怎样的颠覆。
作为生命的物质基础,蛋白质与生命及各种生命活动有着极其紧密的联系,包括人体所有疾病的发生几乎都与蛋白质功能异常有关。换句话说,如果能人为地激发或抑制蛋白靶标,“控制”蛋白质的结构和功能,就能够大大加速对疑难杂症的靶向药物和高效疗法的研发。
在过去,生物学家们曾广泛使用 X 射线衍射、冷冻电子显微镜等实验技术来破译蛋白质的三维结构,这类方法耗时长且成本高。因此从 1994 年开始,多支科研团队在两年一届的国际蛋白质结构预测竞赛(CASP,Critical Assessment of protein Structure Prediction)上施展拳脚,并由此催生了 I-TESSER、RaptorX、RoseTTAFold 等蛋白质结构预测模型。
但是问题也随之而来,这些大部分用计算机基于理论预测的蛋白质结构模型,其实与实际观测到的实验数据相去甚远,正确率不足 40%。其后续发展需要持续提高预测模型的精度,以无限缩小预测结构和实验误差。
不仅如此,从蛋白质结构预测推进到药物研发环节,不同药物设计方法的原理和应用场景也有着极大差异。例如在制药流程中,从前端的靶点发现、先导化合物的筛选优化,再到后期 ADMET 预测、甚至临床效果预测等多个环节,都面临着独特的技术挑战。在这个过程中,研究人员必须要进行高通量的重复性实验,甚至要花费多年的时间,验证次数也高达数百万次。
而今,回看这个半世纪以来令无数学者着迷却又难以跨越的难题,不过是科研领域延绵壁垒中的冰山一角。而成熟的 AI 技术与科研领域及多学科交叉融合诞生的“AI for Science”,无疑给这个难题以及人类在科学无人区的更多探索带来了全新的可能性。
从 2020 年开始,AI for Science 进入了集中爆发的发展阶段,其中就包括了 AlphaFold 项目,其最新成果——由 DeepMind 在 2021 年发布的 AlphaFold 2,已能成功预测 98.5%的人类蛋白质三维结构,且预测结果与大部分蛋白质的真实结构只相差一个原子的宽度,可达到以往通过冷冻电子显微镜等复杂实验观察预测的水平。
类似于生命科学领域,分子动力学领域也出现了影响力同样显著的 DeePMD-kit 项目,其通过利用机器学习、高性能计算技术与物理建模相结合,能够将分子动力学的极限提升至 10 亿原子规模,同时保持高精度,大大解决了传统分子动力学中“快而不准”、“准而不快”的难题。
还有在气象预测领域,基于新型算子学习的神经网络模型 FourCastNet,能够将天气预报提速 45000 倍;在工业领域的流体、结构等 PDE 方程求解方面,也已证实基于数据+物理机理融合的 AI 方法,是解决复杂高维物理问题的突破口……
一言以蔽之,无论是今年爆火的 AI 绘画、AI 对话模型 ChatGPT 等 AI 应用,亦或是大量 AI for Science 领域的项目案例,都足以证明 AI 正在为各个行业、领域带来了一场范式革新。但 AI for Science 更重要的意义在于,其对前沿科研所施加的加速作用,将对人类社会和经济发展有着更为基础,也更为深远的影响。
而且,AI for Science 的应用也不仅仅局限于依据已知科学原理来高效验证或试错,它也让更多科研人员能够基于 AI 在更复杂的场景中做探索,结合数据反推复杂场景下更为准确的物理规律。
毫不夸张地说,人工智能将成为科学家继计算机之后的全新生产工具,同时也正在催化一场新的“科学革命”。
跨越落地壁垒,从深度学习框架出发
但从畅想回归现实,人工智能行业想要获得长足发展,真正成为人类新的生产工具,必然要跨过落地这道关卡。而 AI for Science 所具备的全面、深层次革新价值,亦让它面临远高于人们常见 AI 应用的落地壁垒。
主要原因在于,AI for Science 的落地应用需要大量的工业场景数据支持,以及合理的科学机理等效,而且高维、海量的数据也对算力和内存提出了更高的要求。总的来看,目前 AI for Science 落地应用的最大壁垒主要体现在数据、平台技术、软硬协同、领域求解能力和优秀研发生态上。
从数据角度,工业场景的数据维度高、格式繁杂且存在孤岛现象,同时由于隐私和法律上的一些限制,部分数据很难实现公开共享。因此如何高效治理这些多特征、多来源的数据,解决小样本、零样本数据建模,是当前 AI 在科研领域落地的基础。
从软硬件协同角度,AI for Science 的发展既离不开深度学习框架的支持,也无法脱离底层高性能硬件的支撑。一方面,AI for Science 需要更加科学地求解真实物理问题,如高阶 PDE 方程组的求解,以及数据+物理机理驱动的模型开发。另一方面,传统的科学计算中心已广泛支持各类科研任务,在其持续增加智能计算硬件能力的同时,也需要科学计算/智算硬件与 AI 开发框架深度整合,支持各类新型 AI for Science 计算场景并达到性能领先。
从研发生态角度,AI for Science 作为一个充分体现交叉学科的新兴科研范式,涉及生物学、分子动力学、计算流体力学、固体力学等学科,需要大量的跨领域科研人才,且不断扩展的开源生态库要与传统数据集模拟软件、数据集打通,才能满足研发人员对开发工具链的需求,逐步形成稳定且优质的科研生态。
为了跨越这些壁垒,拉低 AI for Science 的应用门槛,产、学、研各界的科学家、企业们都开始踏上了 AI for Science 的范式革新+普惠之路。
在深度学习框架领域,国外如 TensorFlow、PyTorch、MXNet 等 AI 框架,自诞生以来就一直在帮助众多科学家和工程师进行学术研究及工程实现,大大促进了 AI 领域的发展。作为国内 AI 领域的先行者,百度也凭借百度飞桨(PaddlePaddle)从 2016 年打响国产 AI 框架开源第一枪,并一路朝着全面 AI 技术布局演进。如今,飞桨平台已能够对各类硬件实现广泛适配,并能直接部署到大规模的科学计算集群,与已有的科学计算生态紧密融合,强力支撑 AI for Science 方案的部署与应用。
同样在 2016 年,向辉也开始在百度接触 AI 行业,随后亲身经历了 AI 在计算机视觉、自然语言处理、推荐等领域的技术应用与快速更迭,如今她已成为百度飞桨 AI for Science 产品负责人。
向辉在接受 36 氪专访时谈到,面对 AI for Science 的落地挑战,百度飞桨认为核心要解决的是构建一个通用化的深度学习平台,能够衔接下游的各种异构算力,提供支持科学计算问题求解的 API,以及编译加速机制等,以更好支撑典型的科学计算场景建设和分析,如支持气象预测、流体仿真、材料发现等领域问题。“同时也要建设可持续的、融合科研、科学计算、平台以及终端用户的开放生态。”她说。
为让不同领域的科学工作者都可以灵活地使用当下热门的科研模型,早在 2019 年,百度飞桨就已开始尝试在 AI for Science 领域进行技术形态、产品路线等规划,并在 2020 年初至 2021 年底相继发布了生物计算平台“螺旋桨 PaddleHelix”、量子计算平台“量桨 PaddleQuantum”,以及面向流体、固体、电磁等领域的科学计算平台“赛桨 PaddleScience”。
此外,百度飞桨还提供了 PINN、FNO、DeepONet 等主流模型,以及用户可直接复用的标准案例,如 CFD 中障碍物绕流、涡激振动、达西流等。
百度飞桨还支持基于组件进行定制化的问题复现与分析,支持数据驱动以及与物理机理相结合的多种方法,分别在物理仿真、化合物分子表征、量子纠缠处理等场景有了突破性的进展。
其中,为了更好地服务广大科学计算用户对各类 PDE 方程的求解需求,百度飞桨也在积极实现与优秀科学计算 Repo-DeepXDE 的全量模型支撑,目前已初步完成所有模型的精度对齐工作,并在百度飞桨最新的高阶自动微分机制、自动化的分布式策略以及编译加速机制等加持下,部分用例的求解效率已领先同类产品。
为进一步推动 AI for Science 的落地进程,百度飞桨还与多家高校、科研机构等开展了流体、材料、生物等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区。今年 5 月还推出了“飞桨 AI for Science 共创计划”,希望通过与各方一道进行技术联合开发、推广资源共享,共建生态商机。
回想这些社区的发展经历,向辉对不少学生团队的项目记忆犹新。她回忆,其中北航有一个学生团队开展了一个真空羽流模拟实验,实验本身需要在真空条件下,无法在地面上复现,但通过飞桨 AI for Science 的产品,团队繁衍出了玻尔兹曼方程的一些系数,最终达到了令人惊艳的效果。“这些案例都已证明,在某些场景中,百度飞桨的 AI for Science 能够一定程度地解决开发者们的科研问题。”向辉说。
一路发展至今,百度飞桨 AI for Science 工具集已能支持 AI 方法与基础学科方法交叉融合,最大的特点在于能突破基础学科中“基于数值计算求解控制方程”面临的维数高、时间长、跨尺度、算力不足等挑战,将数值差分等效为“基于数据、物理机理驱动的神经网络模型实现”。
开辟 AI for Science 赛道,对百度飞桨来说无疑是 AI 能力的又一次挑战和跃升。在大幅加速科学问题求解的同时,它也将为行业在探索更多未知科学问题的路上深踩油门。
平台之下,底层算力赋能软硬协同发展
正如前文所说,AI for Science 的科学问题加速求解和产业落地,不仅需要框架或软件平台层面的支持,亦需要基础设施提供强大算力和软件优化能力。
面向科学计算领域,有大量芯片厂商在围绕如何提高 AI 算力,加速 AI 应用落地做相应布局。而英特尔正是这一赛道中颇具代表性的领军企业之一,其一直以来都在致力于“让 AI 无处不在”。
在英特尔人工智能架构师杨威与 36 氪的访谈中,他从一家芯片企业的角度出发,针对 AI for Science 这一领域给我们带来了不一样的视角和观点。
杨威认为,AI for Science 普及的主要难点卡在如何降低 AI 硬件的成本,以及要有易于上手的 AI 软件优化工具。
他强调:英特尔从第二代至强可扩展处理器开始,实现了 CPU 内置的 AI 加速。通过 AVX-512 和 DL Boost 等 AI 加速技术,让“用 CPU 跑 AI”成为了可能。此举的意义,在于能够充分激活和利用部署更广泛且成本优势更明显的 CPU 的算力,在输出绝大多数应用所需的通用算力的同时,还能通过对 AI 推理的加速推进 AI 应用的落地。同时英特尔还向公众开源,即免费提供各种 AI 软件优化工具,包括 oneAPI、OpenVINO 等,这些软件的技术门槛与使用难度较低,且能帮助用户释放至强 CPU 的 AI 加速能力。
此外,考虑到 AI for Science 领域的模型或相似变体对内存的消耗非常敏感,且对大内存应用来说 CPU 平台的计算资源通常会更具优势,英特尔还有的放矢地的进一步强化了这方面的能力——其与至强 CPU 搭档的英特尔傲腾持久内存,能提供远超主流 DRAM 的容量,更容易达成 TB 级内存配置并拥有接近 DRAM 的性能。也就是说,它能够在尽可能降低科学计算模型在整个链路上时延的同时,突破限制 AI for Science 应用的内存容量瓶颈。
虽然在现阶段,英特尔针对 AI for Science 等 AI 应用的核心硬件布局是以 CPU 为主,加速的应用类型也是以推理为主,但这只是其在 XPU 时代扩展 AI 产品组合的第一步。在英特尔的“XPU 愿景”里,随着未来数据类型和应用类型的高速增长和裂变,其底层硬件架构也将从 CPU 拓展到 CPU 与 GPU、FPGA 和 AISC 加速器俱全的 XPU 架构。
基于这一策略,英特尔 2023 年不但会推出代号为 Sapphire Rapids 的第四代至强可扩展处理器,还会发布可与这款 CPU 搭配,专攻科学计算及 AI 加速的、代号为 Ponte Vecchio 的数据中心 GPU 产品,并由此形成在 AI 推理上以高性价比、易获取和使用的 CPU 为主,在 AI 训练上则以 GPU 为主的更完善布局。而且这种 XPU 组合还可借助 oneAPI 工具包实现对异构硬件的统一编程和管理,具有灵活调配、无缝协作和高效易用等特点。
依托上述产品组合已经或即将带来的强大算力支持,英特尔从硬件到软件多维度地为 AI for Science 提供了优化,力求让更多科研人员可以亲自参与到开发和定制当中,并实现科学智能的真正普及。在其持续的努力下,如今已有许多合作伙伴实现了产品落地。
例如在 AI 小分子药物设计领域,英特尔与剂泰生物合作,在小分子药物优化方面实现了高通量的分子生成,有望在更大的化学空间中探索更多潜在的候选分子。在大分子药物设计领域,英特尔则与百度飞桨、晶泰科技、上海交大等各大机构和高校进行了深入合作,基于 AlphaFold 2 实现了高通量和长序列蛋白结构预测推理的优化,并在 AlphaFold 2 中引入了 TB 级内存技术,总体达到了降本增效。
其中,英特尔与百度飞桨也早在 2017 年就开始了以软硬件协同优势为主的合作。随着双方在 AI 领域的持续布局,合作的广度和深度也在不断提升。例如,英特尔和百度飞桨致力于实现英特尔全栈软硬件和飞桨的相互支持,通过 oneAPI 实现深度适配与性能优化,并通过飞桨+OpenVINO 等方式共建部署生态。
有意思的是,如今百度飞桨与英特尔在 AI for Science 领域达成合作,不仅与这些前序的合作有关,也与开发者生态有着千丝万缕的关系。
长期以来,百度飞桨都在积极发展开发者生态,如建设飞桨特殊兴趣小组(PPSIG),希望通过开放的社区形式与全球开发者共同构建一个开放、多元和架构包容的生态体系。而英特尔的一位专家正巧是 PPSIG-科学计算 Science 小组最早期的成员,曾积极参与了 PaddlePaddle 科学计算开源社区建设,并且对分子动力学模拟在生物蛋白分子和能源材料的应用产生了浓厚兴趣。
在这个契机下,双方在 AI for Science 的合作也水到渠成。从 2022 年 3 月起,百度飞桨与英特尔结合各自实际,经过多次讨论交流,最终确定了任务方向与合作内容,共同开展 AI for Science 在分子动力学和生命科学领域的实质性工作,并取得了一系列成果,包括:百度飞桨实现了国内首个完成与传统分子动力学软件 LAMMPS 以及 AI 势函数训练软件 DeepMD-kit 融合工作的 AI 深度学习框架,并基于英特尔 oneAPI 实现了从训练到推理全流程打通的“0 到 1”式突破性进展;百度 Helix Fold 模型基于至强平台的 AVX-512、oneDNN 和大内存能力进行优化,不但实现了性能的显著提升,还可轻松预测推理长度超过 4000,即超长序列的蛋白质结构。
结语:AI for Science 的普惠之路,临界点已近
一个是在深度学习领域深耕多年,已成长为国内开源 AI 框架一哥的百度飞桨,一个是科学计算领域 Top 级玩家英特尔,双方正依托各自优势产品和对 AI 领域的持续布局,以灵活多样的“组合拳”不断拉低 AI for Science 的应用门槛,共同朝着“让 AI 无处不在,更加普惠千行百业”以及“让合作贯穿产、学、研,助 AI for Science 打通理论、实验和产业应用道路”的目标持续推进。
站在这个关键的时间节点,我们再次回溯 AI 发展的七十余年,或能更清晰地看到,它在每一个发展阶段的爆发,都在历史长河中砸出了创新的波纹,这些波纹终于在今天叠加成推动产业变革的巨浪。正如今天的 AI for Science,就正在一浪又一浪地驱动着科研冲击范式革新的临界点,身处其中的每一个参与者,都在抑制不住地畅想这种冲击成功后将为人类未来开辟的可能性。
毕竟,这将是如核裂变链接反应或寒武纪生命大爆发一样的无穷种可能性。
评论