文心生物计算大模型重磅升级,构象预测准确度全面提升!
文心生物计算大模型家族又迎来了重磅的升级:蛋白质-小分子对接构象预测模型 HelixDock,以及蛋白-蛋白复合物结构预测模型 HelixFold-Multimer 准确度全面提升。这两项新技术可以大幅提升蛋白质-小分子的对接构象及蛋白-蛋白复合物结构预测的精度,为基于结构的药物设计奠定了扎实的基础。
蛋白质-小分子对接构象预测模型 HelixDock
蛋白质-小分子对接构象预测是小分子药物发现的核心环节。传统的分子对接工具(如 LeDock,AutoDock Vina,Glide 等)受限于有限的构象采样次数及粗糙的打分函数,精度不足。当前也有一些基于深度学习的技术(如 Equibind,TankBind,DiffDock 和 Uni-Mol),其表现相比起传统工具有提升,但这些模型在泛化能力与预测的结构合法性上仍存在较大的问题。
百度飞桨螺旋桨团队通过构建大规模的模拟数据集、升级基于几何的神经网络等手段,构建蛋白质-小分子对接构象预测模型 HelixDock,大幅度提升了构象预测的准确度。在 PDBBind core set 上对比其他方法 RMSD≤2Å的比例高达 89%(图一)。在数据分布不一样且更加难的数据集上(RCSB PDB 中收集的最近的数据集 Recent-PDB 和 PoseBusters 基准集),HelixDock 的预测结果大幅度领先其他方法(图二),也包括 DeepMind 最新公布的 AlphaFold-lastest(图三)。
图一 PDBBind core set 的对比效果
图二 Recent PDB 上的对比效果
图三 在 PoseBusters 基准集上达到业界最佳
对比 AlphaFold-latest 技术文档中展示的的示例,HelixDock 的预测结果也极具竞争力,在 2 个示例中预测结果明显优于 AlphaFold-latest(图四)。这充分体现出 HelixDock 的强泛化能力。
图四 HelixDock vs AlphaFold-latest 在 3 个示例上的对比效果图
更多结果详见 HelixDock 文章:
https://arxiv.org/abs/2310.13913
蛋白-蛋白复合物结构预测模型 HelixFold-Multimer
在大分子药物发现中,蛋白质复合体的结构预测发挥着至关重要的作用。无论是基于能量函数打分的对接工具(如 ZDock 和 HDock),还是基于深度神经网络的对接方法(如 Equidock 和 AlphaFold),精度上都有很大的提升空间。特别地,在与大分子药物发现更相关的抗原-抗体和多肽-蛋白复合物的场景上,现有方法的准确度都难以达到应用状态(一般认为 DockQ 大于 0.23 即可用)。
鉴于此,百度飞桨螺旋桨团队研发了蛋白-蛋白复合物结构预测模型 HelixFold-Multimer,在抗原-抗体、多肽-蛋白等场景上取得了突破进展,相比其他方法 DockQ 大幅提升。HelixFold-Multimer 在 68 例 2022 年 10 月后公开的 Sabdab 抗原-抗体测试数据上,单模型的 DockQ 达到 0.49,多模型融合的 DockQ 达到 0.5,成功率达到 67.6%,远超其他已公开方法(图五)。
图五 HelixFold-Multimer 在抗原-抗体复合物结构预测的结果
在多肽-蛋白复合物结构预测场景,选取 PDB 数据库在 2021 年 10 月后发布的 61 个多肽-蛋白复合体结构数据进行评估。单模型 DockQ 达到 0.380,多模型融合的 DockQ 达到 0.387,领先于其他结构预测方法(图六)。
图六 HelixFold-Multimer 在多肽-蛋白复合物结构预测的结果
示例:
示例 1: 7VD7 沙门氏菌的毒素-抗毒素复合物,复合体构象预测可以帮助理解毒素和抗毒素如何相互作用以调节细胞内过程。Alphafold 2.3 在红色圈部分预测差异大,而 HelixFold-Multimer 预测得到了准确的构象(图七)。
图七:7VD7 复合体预测结果
示例 2: 7UA2 疟疾传播阻断抗原 Pfs230 domain 1 (Pfs230D1) 与纳米抗体的复合体构象,其中 Pfs230D1 是一种高功能活性的疟疾传播阻断疫苗抗原,已在临床试验中得到广泛验证。7UA2 复合体包含了 Pfs230D1 疫苗接种的受试者产生的人源单克隆抗体(hmAbs)和 Pfs230D1 构象。可以看到 HelixFold-Multimer 预测的构象(蓝色)几乎与真值重合,对接面的预测 DockQ 也达到 0.819,Interface RMSD 为 0.826 Ȧ(图八)。
图八 7UA2 复合体预测结果
很高兴和大家分享文心生物计算大模型现阶段已经取得的进展,同时我们也关注到了 DeepMind 最近公开的 AlphaFold-latest 的相关成果,但由于 DeepMind 并未开源,也未放出线上服务,因此我们只能在公开可比的数据集上进行了比较(详见正文)。我们将于近期面向公众开放 HelixDock 和 HelixFold-Multimer 等相关工作的试用,敬请期待。同时我们也深知,AI 技术的更迭日新月异,想要全面领先,就需要集结大家的力量。我们希望探索出一种新形式,将强大的底座模型能力开放给国内的科研工作者们,以在更加广泛的维度上推动生物计算领域的技术变革。也希望对此工作感兴趣的专家学者与我们联系,共同推进生物计算大模型在应用侧的研究。
飞桨螺旋桨访问地址:
https://paddlehelix.baidu.com/
联系我们:
baidubio_cooperate@baidu.com
版权声明: 本文为 InfoQ 作者【飞桨PaddlePaddle】的原创文章。
原文链接:【http://xie.infoq.cn/article/9e9875b217fa609d48c6bd6b7】。文章转载请联系作者。
评论