写点什么

缺乏数据源?超算安腾助力开启 AI 药物研发新范式

作者:Geek_2d6073
  • 2024-05-09
    湖北
  • 本文字数:3511 字

    阅读完需:约 12 分钟

“既然计算机辅助设计行业捧出了第一家 2 万亿美元市值的芯片公司,计算机辅助药物发现行业为什么不能打造下一个价值万亿美元的药物公司呢?”英伟达医疗保健副总裁 Kimberly Powell 说道。

是的,当 ChatGPT 横空出世时,它向人类展现出的强大能力正在不断影响着世界,医药行业也不例外。Kimberly Powell 的观点表现出她对 AI 技术在医药领域的潜在价值充满了信心。事实上,早在 2020 年,“AI+生物医药“相关的概念就曾在国内掀起过一波热潮。据中信证券研报显示,当年国内 AI 制药赛道投融资额超 31 亿元,较前一年增长高达近 7 倍。截止 2023 年,据不完全统计,中国 AI 制药公司已经达到了 91 家,不少公司都是 CRO 和自研管线并行。



中国 AI 制药企业分布图 | 图片来源:智药局

尽管从资本注入和市场潜力的角度看,AI 制药无疑是一片蓝海,然而审视其研发成果的实际转化,自从 AI 技术加入医疗行业以来,至今仍然没有任何一支 Al 预测的药物上市,甚至于市面上还没有任何一款公开进入临床二期的药物。

相较于活跃的投资环境,药物研发的过程实则漫长且充满变数,不仅需要巨额的资金投入,而且面临极高的研发失败风险。AI 在此过程中扮演的角色,则是通过大规模模型的系统训练,使药物筛选更为迅捷、精准,降低了人为试错成本,并显著提升了研发效能。



图片来源于网络

AI 技术的三大支柱——算法、算力及数据库,在国内 AI 制药行业中,尤其凸显数据库的关键地位,丰富的数据库资源能确保更高水平的计算精确度与可靠性,进而提升研究成果的品质与实用性。然而,在生物制药行业内,众多至关重要的数据并非开源,而是源于企业通过实验室研究和临床试验所积累的独家资源。与此同时,现有的开源分子数据库往往分布广泛、下载速度慢、更新频率各异,难以实现集中管理和有效利用。因此,建立一个稳定且高效的数据库体系,已成为评判 AI 制药企业竞争力的核心指标。

在缺乏非开源数据的情况下,AI 制药企业采取的一种策略便是通过不断训练 AI 系统,累积和改进数据集。比如,运用自然语言处理技术深入挖掘海量学术文献中的有价值信息,将非结构化的文本数据结构化,来为 AI 模型提供更好的训练材料。另外,利用物理学建模和仿真技术创造数据,特别是在已知药物靶点的研究中,即使此类数据短期内可能还不足以直接孕育全新的药物,但它们对于训练 AI 模型理解药物靶点作用机制和提升预测效果具有极高价值,长远看来有助于优化药物研发流程,缩短新药上市周期。

然而,构建自身的强大数据库是一项耗时较长的任务,人们不禁要问,是否存在其他途径可进一步加速药物研发进程?

AI 制药的另一个出口——专用超算

Relay 公司的 RLY-4008 药物的成功研发,为 AI 制药行业指出了一个全新的研发范式。该公司并未沿袭传统的依赖于数据库的药物研发路径,而是选择了运用高性能计算设备——第二代安腾超级计算机 Anton 2,来实现药物靶点与候选化合物的分子动力学模拟与精准筛选设计。通过结合实验与先进计算技术的混合研发模式,Relay 大幅缩短了新药研发周期,仅用了 18 个月、花费不到 1 亿美元的成本便成功确定了 RLY-4008 的结构,颠覆了传统的药物研发投入“双十定律”(即需要投入 10 年、10 亿美金才能进行药物研发)。



图片来源:Relay 官方

目前,RLY-4008 已成功进入美国食品药品监督管理局(FDA)主导的二期临床试验阶段,并根据 Relay 公布的临床数据,在胆管癌患者的治疗中,当采用推荐剂量时,RLY-4008 显示出惊人的疗效,整体缓解率达到了 88.2%,这一数值在癌症治疗研究中极为突出。这一亮眼成绩使得 Relay 在一众历史悠久且实力雄厚的传统制药巨头中脱颖而出,也充分印证了超级计算机在药物研发中所引领的革新力量,预示着未来的药物研发将有望步入超算推动的全新时代。

安腾超级计算机助力颠覆了药物研发的“双十定律”

为 Relay 提供高性能算力的安腾超级计算机,是由美国 D. E. Shaw 研究所于 2007 年首次发布的。与 Frontier、神威·太湖之光这类通用型超级计算机不同,安腾超级计算机只专注于分子动力学模拟计算,并据此进行了底层技术架构的特殊设计。这种专业化的聚焦使得超算安腾在生命科学研究和生物制药研发领域展现出显著优势。

由于安腾超级计算机只专注分子动力学模拟加速做一件事,所以,其将软硬件算法进行特殊设计,使得运算效率获得了极大提升。据悉,超算安腾的计算效率比全球最强的超算 Frontier 还要快上近 50 倍。



安腾超级计算机 |  图片来源:网络

概括来说,安腾超级计算机采用了专门设计的高速三维环形网络,将大量定制化的特定应用集成电路(ASIC)紧密相连,形成了一个高度并行且性能卓越的计算系统。

ASIC 芯片针对特定应用进行了深度优化,如通过定制化数据通路和并行计算架构,能够在特定领域实现远超过通用 CPU 和 GPU 的计算速度和效率,并在处理特定任务时表现出更高的可靠性和保密性。与通用超级计算机不同,超算安腾的架构特别注重针对细粒度事件驱动的运算优化,并通过计算与通信的高效重叠来提升整体性能。为了充分利用硬件优势,D. E. Shaw 研究所为其设计了专用的分子动力学模拟软件 Desmond,与硬件紧密结合,以实现针对特定问题的高效计算。这样的软硬件一体化设计使得安腾超级计算机在进行分子动力学模拟加速上取得了显著的竞争优势。

这样一来,Relay 公司的研发团队并未完全依赖数据库训练 AI 模型,而是借助专门针对分子动力学模拟优化的安腾超级计算机,得以实时可视化蛋白质复杂的动态行为。通过模拟蛋白质随时间推移的运动状态,研究人员能够深入了解药物靶点的动态结构特征,进而设计出与这些靶点结合亲和力更强的小分子药物。

同时,这种方式弥补了依赖于传统静态成像技术在揭示蛋白质动态功能上的局限,它为药物开发带来了更为直观且全面的视角。尽管传统的电子显微镜技术能够获取蛋白质的三维静态结构,但在解析诸如蛋白质折叠这类快速且连续的动态事件时,受限于只能呈现某一时刻的快照,要完整重建整个折叠过程,理论上需要连续拍摄海量的高分辨率照片,可能多达数十亿帧。即便如此,即使收集到了如此巨量的静态影像数据,也无法直接解读出折叠过程中的细微动态变化,特别是那些深藏于分子内部、不易观察到的微结构转变。另外,电子显微镜观测过程中对样品的物理扰动也可能影响对蛋白质真实动态行为的准确捕捉和理解。通过运用分子动力学模拟技术,则能够在一定程度上克服上述难题,助力药物研发人员在理论层面上更加精确地预测和设计药物分子与靶标蛋白的相互作用。

此外,通过超算安腾进行药物研发也突破了通用超级计算机的计算效率。在安腾超级计算机出现之前,即使是最先进的通用超级计算机,尽管其峰值浮点运算速度可达到每秒十亿亿次(petaflops),但在处理像分子动力学模拟这样的复杂任务时,由于受到复杂算法的执行瓶颈、海量数据处理压力以及较低的计算效能制约,实际模拟效能显得颇为有限。例如,一台顶级的通用超级计算机,在进行分子动力学模拟时,每日可能仅能模拟出几纳秒至几十纳秒的分子运动过程。相比之下,生物体内的自然过程,如蛋白质折叠,其实际时间尺度通常在微秒级别以上,甚至可能达到毫秒级别。基于这种时间尺度的差距,若仅依赖于传统的计算资源来模拟一个完整的生物过程,例如从蛋白质初始折叠直至达到稳定状态的全过程,理论上可能需要耗费数年,甚至在极端情况下,可能需要几十上百年的时间才能完成一个详细的模拟研究。

安腾超级计算机的出现,极大推动了生物计算行业的发展。除了助推 Relay 的发展外,2020 年 3 月 27 日,D. E. Shaw 研究所宣布了一项针对新冠病毒的重大科研突破:他们成功运用安腾超级计算机进行了 3CL 蛋白酶长达 100 微秒的高精度分子动力学模拟,并同步发布了模拟动画和数据资料。3CL 蛋白酶作为新冠病毒繁殖与结构装配过程中的关键成分,以及新冠药物研发的重点靶标之一,其动态行为的精确模拟为科研人员探究病毒生命周期的内在运作规律以及设计针对性极强的 3CL 蛋白酶抑制剂奠定了极其重要的理论基础。

常规情况下,即便是采用国际领先的超级计算机集群,要实现相同级别的模拟实验所耗费的时间可能会以年计。然而,得益于安腾超级计算机对分子动力学计算任务的高度优化能力,这项原本耗时冗长的任务在短短十几天内就被高效执行完毕。随后的两年里,D. E. Shaw 研究所持续推进研究,陆续发布了累计超过 1000 微秒的新冠病毒分子动力学模拟研究成果,这些成果对深化新冠病毒病理学理解以及驱动相关治疗药物的研发工作产生了深远且持久的影响。

也许,在未来的 AI 制药领域,依托类似安腾这样的专用超级计算机,AI 制药企业将得以在积极构建和完善自家数据库的同时,也能并行开展一系列高度复杂的计算密集型研发活动。通过这种双轨并进的方式,AI 制药公司有望在优化药品研发流程、大幅缩短创新周期上取得显著成效,从而在科研突破和商业成功上取得传统医药公司难以企及的成就。

用户头像

Geek_2d6073

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

评论

发布
暂无评论
缺乏数据源?超算安腾助力开启AI药物研发新范式_Geek_2d6073_InfoQ写作社区