百度飞桨螺旋桨赋能生物医药,推动 AI 技术在药物研发领域的探索应用
在数字化浪潮中,AI 正在成为生物医药行业高质量发展的重要推动力。3 月 23 日,百度深圳研发中心自然语言处理部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟在机器之心 AI 科技年会 AI for Science 论坛上发表了《飞桨螺旋桨 PaddleHelix 赋能生物医药:AI 技术在药物研发领域的探索和应用》主题演讲,介绍了螺旋桨 PaddleHelix 在生物医药领域的布局与技术进展,以及在应用落地方面的成果。
传统药研瓶颈待解
预训练或成行业探索新方向
目前,伴随全球生物医药市场规模持续上涨,新药研发的投入产出比却持续下滑,药物研发面临的长周期、高投入、高风险等问题凸显。传统药物研发在尝试了生物实验、传统机器学习等方法后,面对大量无标注的数据,高要求的泛化能力,以及生物计算领域的特性,终于迈向拥有自监督和多任务学习融合能力,又考虑生物领域研究对象特性的预训练模型。
反观以化合物、DNA 与 RNA、蛋白质为主要研究对象的生物计算,何径舟表示,在此之前,预训练模型在 NLP、CV、跨模态等 AI 领域已相继展现出通用的 AI 能力、优秀的图像分类效果,以及强大的生成能力,构建基于预训练技术的分子表征模型、蛋白表征模型、组学表征模型,使之成为生物计算的底座,将有助于解决传统机器学习应用在生物领域的问题。
预训练模型发力
释放多维技术优势
基于预训练技术,螺旋桨 PaddleHelix 已经在化合物表征和蛋白质表征等研究方向上取得重大进展。
在化合物领域,螺旋桨 PaddleHelix 团队揭示了一种基于三维空间结构信息的化合物建模方法,即“几何构象增强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),首次在全球范围内将化合物的几何结构信息引入自监督学习和分子表示模型,并在下游十多项的属性预测任务中取得 SOTA,成为百度在 AI 赋能药物研发领域对外公开的又一项重磅成果。
业界之前的预训练方法没有考虑化合物的三维空间结构,而空间结构对于化合物性质至关重要。凭借化合物表征模型 GEM 在基于空间结构的图神经网络和多个几何级别的自监督学习任务上的技术创新,该研究于今年 2 月登上了国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。
在蛋白质领域,蛋白的建模技术能够有效表征蛋白,对预测蛋白结构和预测蛋白-蛋白相互作用(PPI)来说至关重要。螺旋桨 PaddleHelix 团队以“蛋白 PPI 表征模型 S2F”为例分享了相关进展。蛋白-蛋白相互作用问题与蛋白的结构和功能密切相关,单独使用蛋白质序列很难描述蛋白质的结构和功能。螺旋桨创新性地提出,通过构建多模态的蛋白预训练技术,应用在 PPI 任务上。该模型在跨物种蛋白 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测,以及突变驱动的蛋白结合亲和力变化的预测上,取得 SOTA 结果,相比于其他蛋白质表示模型有 5%-10%的提升。
在本次科技年会上,螺旋桨 PaddleHelix 团队还透露,螺旋桨基于飞桨框架,联合国内多家超算中心,在国产的软硬件上,完整适配并跑通了 AlphaFold2 的训练和推理代码,实现千万级别的蛋白质 initial training 训练时间从 AlphaFold2 的 7 天压缩到 2.6 天。相关代码也将于 3 月底在螺旋桨 PaddleHelix 平台开源,为国内相关科研工作者提供更多的选择。
AI+生物计算成果涌动
螺旋桨全面赋能生物医药产业
除了技术上的不断创新,螺旋桨 PaddleHelix 在药物研发等应用场景领域取得了多项落地进展,全面赋能生物医药产业。
在药物研发领域,基于螺旋桨打造的“ADMET 成药性预测模型”已经在 biotech 公司实际业务管线中完成商业化落地;药物虚拟筛选 pipeline 在 first in class 的合作管线中应用,并成功筛选到活性在微摩尔级别的苗头化合物。相关的算法模型也被收录在 KDD 2021 和 BIBM 2021 等会议上。
在蛋白领域,螺旋桨 PaddleHelix 团队运用多模态的蛋白 PPI 表征模型 S2F,联合合作伙伴,共同推进在新冠变异病毒奥密克戎上的研究。通过百度的算法,预测新冠变异病毒奥密克戎的线性抗原表位,帮助合作伙伴研发变异毒株奥密克戎的疫苗,还能快速应对潜在的新型变异,后续也有望携手合作伙伴,在罕见病、癌症、免疫与代谢等疾病领域开创创新药物研发方案。
据悉,螺旋桨 PaddleHelix 是基于百度飞桨深度学习框架打造,通过螺旋桨生物计算开源工具集,搭建了生物计算和服务平台,为药物研发、疫苗设计和精准医疗三大场景提供强有力的支撑,同时也为生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴提供了 AI 算法模型,赋能生物医药产业。
百度在生物医药方面形成的核心能力已在 GitHub 开源,提供包括虚拟筛选、ADMET、DTI、PPI、蛋白结构预测等 9 大能力模块,为生物医药行业内的研究人员提供专业服务。
未来,螺旋桨 PaddleHelix 生物计算平台,将继续秉持开源开放的态度,期望与更多学术界和生物医药产业伙伴合作,加速 AI 与生物计算的融合创新,共同推动生物医药行业高质量发展。
评论