全球选手逐鹿清华！首届 AI 药物研发算法大赛完美收官

2023-08-30
山西
本文字数：1628 字
阅读完需：约 5 分钟

8 月 26 日，首届全球 AI 药物研发算法大赛决赛答辩暨颁奖典礼，在清华大学生物医学馆举行。来自微软研究院、中国科学院上海药物研究所、上海交通大学等单位的十五支团队，从全球 878 支团队中脱颖而出，进入了决赛答辩环节。

产教融合，共育 AI 药物研发人才

总决赛开幕式上，清华大学药学院副院长陈立功代表主办方致开幕辞，并对来自全球高校、研究院所和企业的嘉宾参赛团队表示热烈的欢迎。他表示，长期以来，药物研发面临成本高、成功率低的问题，而 AI 技术的发展为此带来了新的机遇。清华大学药学院希望通过比赛，促进高校、科研院所与企业在 AI+药学领域的合作与发展，解决制药领域的难题，同时能够从大赛中，孕育更多 AI 与生物医药交叉学科的人才。本次大赛的主要内容是预测小分子在细胞水平是否能够抑制新冠病毒，是一个分子表示学习的问题，也是药物化学与小分子药物设计中的关键问题！

总决赛评委，分别为中国科学院上海有机化学研究所丁克教授、上海交通大学医学院药物化学与生物信息学中心主任张健教授、罗氏中国创新中心 AIDD 负责人林翼博士、清华大学药学院田博学副教授和百度资深产品设计师，飞桨螺旋桨 PaddleHelix 产品负责人张肖男女士。

专家评委们对团队的答辩进行提问并提出宝贵建议

总决赛团队逐鹿清华，答辩现场“神仙打架”

来自微软亚洲研究院的 ViSNet-Drug 团队，利用自主研发的 AI2BMD 动力学模拟系统和预训练的 ViSNet 模型。在初赛中， AI2BMD 对小分子和靶点蛋白 Mpro 的结合自由能进行精确计算并对数据进行 pseudo label 标注。AI2BMDk 可对超过 10,000 原子的蛋白质模拟，达到接近密度泛函理论（DFT）的精度的能量计算并缩短了数个数量级的计算时间。在复赛中，团队利用 AIMD-Chig 数据集对 ViSNet 模型进行预训练，并利用初赛数据进行多标签多分类学习。值得关注的是，该团队以比赛为契机，将 ViSNet 迁移到了飞桨 PaddlePaddle 框架进行了实现，最终取得了更优的结果。

来自中国科学院上海药物研究所的蓝风信团队，使用 Unimol 和 KANO 预训练模型和分子指纹，结合残差网络进行 PaddleHelix 中 GEM 模型的优化，基于 ADMET 问题的较好表现，使用了各种常见的指纹形式，并通过改变网络架构将这些信息融入。此外，模型创新点还有使用 Resnet 代替简单的线性层提取 GEM 结束后的图表征信息。在复赛数据处理方面，团队巧妙地使用复赛数据训练出的模型给初赛数据打上标签，使用这种标签训练了用于复赛的模型，并且额外收集了数据来保证模型最终的表现。

来自上海交通大学的 MolAI 团队，使用经过大规模数据集预训练所得到的预训练模型在预测药物分子亲和度的下游任务上做 finetune。团队的方法使用了 4 个基于预训练模型预测的结果去做 ensamble。其中，4 个模型可以大致分为基于图表示的学习和基于序列信息的学习。基于图表示的学习采用 GNN 去提取分子图的特征，基于序列信息的学习则使用 Transformer 去提取序列的特征。最终，团队的方案也取得了不错的效果。

本次比赛，要求选手基于飞桨 PaddlePaddle 完成算法的搭建，比赛过程中，我们提供了基于百度飞桨螺旋桨（PaddleHelix）工具的基线及一系列赛事培训，以赛促学，让更多选手关注 AI 药物研发领域。值得一提的是，在本次总决赛的队伍中，有不少团队是从其他领域跨界而来，比如来自金融科技领域的 paipai 团队，来自软件开发领域的得闲饮茶团队，这次比赛，也成为了其他领域选手入门和加入 AI 药物研发领域的一次敲门砖。

15 支队伍载誉而归，AI 制药未来可期

获奖团队合影

在颁奖典礼和闭幕式上，百度飞桨教育生态运营负责人钱芳表示，医药工业，它关系到国计民生，是实现健康中国建设的重要基石。2022 年 5 月，百度飞桨联合清华大学药学院，筹备建设“AI+药学”产学研融合创新基地，推出了一系列 AI+生物计算前沿课程和人才培养计划，旨在为 AI 药物研发领域的人才培养提供重要平台。此次赛事的成功举办，也是飞桨与清华药学院在 AI+药物研发领域产教融合的重要一环。