写点什么

云智一体,深入生命科学

  • 2023-03-23
    北京
  • 本文字数:6442 字

    阅读完需:约 21 分钟

云智一体,深入生命科学

本次分享首先概述百度在生命科学方向上的投入、然后分享 AI 制药与基因测序的解决方案和实践、最后介绍药物研发数据隐私计算方案和实践。以下为内容概要:


1. 云智一体,深入生命科学


百度近十年研发投入超过 1000 亿元,在 22 年的 12 月 2 日中国知识产权年会上发布的《人工智能领域高价值专利分析报告》中显示,百度在中国的 AI 技术发明专利的申请量、授权量排名中均位列第一。


2022 年 9 月,百度智能云发布「云智一体 3.0」架构:云智一体,深入产业。


该架构自下而上包括芯片(昆仑芯)- 框架(飞桨)- 大模型(文心)- 行业应用。从行业核心场景切入,通过打造标杆应用,带动和沉淀 AI PaaS 层和 AI IaaS 层的能力,打造高性价比的异构算力和高效的 AI 开发运行能力,进而向上优化已有应用,孵化新应用,向下改造数字底座,使基础云更适合 AI 应用,已经形成智能化闭环路径,做到端到端的优化。


截至目前,百度也是国内唯一一家在每一层都有领先的自研技术,产品和生态的云厂商。


百度在生命科学领域进行了广泛的能力建设和生态布局,依托 AI 核心能力,构建「算法 + 算力 + 生态」的整体能力。


在生态布局层面,和行业领先的企业进行了合作。如百图生科是一家大分子生物药研发的 AI BioTech 企业,聚焦在肿瘤、自身免疫性疾病等领域,通过 AI 和生物技术打造高通量干湿闭环药物发现引擎。同时与众多高效科研机构合作,包括清华大学、北京大学等,其中与西湖生物合作的新冠奥密克戎线性抗原表位预测,达到业界最优的水平。


百度风投 BV 以人工智能的科技创新型早期公司为主要关注对象,致力于生命科学等几大方向,在全球已经投资超过 50 家早期生命科学企业,其中包括分子之心、深势科技、英矽智能、Atomwise 等。


在技术投入上,2020 年 12 月 20 日的 WaveSummit 峰会上正式发布生物计算平台螺旋桨 PaddleHelix。螺旋桨 PaddleHelix 是基于百度飞桨深度学习框架开发的生物计算平台,提供 AI + 生物计算能力,满足新药研发、疫苗设计、精准医疗场景的 AI 需求,其中在药物研发部分包括小分子药物研发和蛋白药物研发等模型。


在能力支撑建设上,依赖百度的生态能力,包括百度大脑 6.0、百度飞桨 PaddlePaddle 深度学习框架平台。目前最新 WaveSummit 发布的数据显示,飞桨平台有 535 万开发者,服务了 20 万企事业单位,拥有 67 万模型。


百度自研的昆仑芯在生物计算场景进行了加速优化,比如针对 Gromacs、Amber 等行业软件进行优化,对经典的 AF2 Transformer 模型进行了训练和推理加速。同时,在药物研发场景中实现了模型联邦学习任务中的数据安全可信流通,在基因测序场景中通过百度网盘完成了数据交付的最后一公里。


百度智能云为生命科学行业提供了超强的算力和智力。


在 AI IaaS 层面,百度智能云构建了适合跑 AI 的云,提供了提供百度百舸· AI 异构计算平台、百度沧海存储等能力。


在 AI PaaS 层面,AI 中台可以提供零门槛开发平台 EasyDL 和全功能 AI 开发平台 BML,提供数据处理、模型训练、模型管理、模型部署,同时兼容支持 PaddlePaddle 和 PyTorch 框架。


在调度引擎层,支持主流的调度器,比如 Slurm、SGE、容器引擎 Kubernetes。


在智力层面,基于螺旋桨生物计算平台为客户提供众多的 AI 模型能力,包括 ADMET 成药性预测、虚拟筛选、分子生成、蛋白质三维结构预测、蛋白质之间相互作用、LinearDesign 序列设计等模型。


这些算力和智力可以为 AI 制药提供强大的资源效能和工程效能,以及最终应用落地的保证。


在基因测序方向,百度智能云可以提供一站式解决方案,从数据上云、计算、存储,最后通过百度网盘完成数据分发。


2. AI 制药与基因测序解决方案


从宏观的全球药品销售角度来看,当前阶段还是小分子化学药类型为主,大分子生物药未来增长潜力较大。根据智药邦统计的数据,2022 年 AI 药物研发领域前三个季度共融资 220 亿元,融资事件共计 76 起,属于一个非常活跃的赛道。


药物研发分为四个阶段,包括早期药物发现、临床前研究、临床试验、到 FDA 审批上市。我们所熟知的双 10 定律(10 年 10 亿美金)逐渐失效,现在一款药品从研发到上市要超过 10 年,超过 20 亿美金。


目前百度主要聚焦于早期药物发现阶段:从靶点发现,到苗头化合物、先导化合物、先导化合物优化,最后到 PCC 候选化合物阶段。可以看到通过 AI 能力降低化合物筛选的时间,提升效率。


预训练大模型,业界又简称大模型,是当前人工智能发展的重要方向,可以大大降低 AI 应用的门槛。


通过深度学习加上海量数据训练得到一个通用大模型,然后加入行业特色数据进行 Fine-tune,最终通过小样本学习,甚至零样本学习方式得到行业大模型。大模型相比普通的模型(监督学习范式)通用性更强,在各场景上效果泛化性更优。


2022 年 5 月,百度率先推出行业大模型,以「行业知识增强」为核心特色,基于通用数据训练的文心大模型,加上挖掘行业应用场景中大量存在的行业特色数据与知识,再结合行业专家的建议,引入行业实际业务积累的样本数据和特有知识,设计行业领域特色算法任务,提升大模型对行业应用的适配性。


其中在生物计算领域推出了化合物表征学习 HelixGEM(化合物数据总量在 2000w 个左右)、蛋白质结构预测 HelixFold、单序列蛋白质结构预测 HelixFold_Single(近 3 亿无标注蛋白质数据)等预训练模型。



基于生物计算大模型,螺旋桨 PaddleHelix 推出了生物计算和服务平台:


1. 在小分子领域,有药物虚拟筛选模型、ADMET 成药性预测模型、分子生成模型;


2. 在蛋白药物设计领域,有蛋白质三维结构预测 HelixFold 模型、单序列蛋白质三维结构预测 HelixFold_Single 模型;


3. 在 mRNA 药物设计领域,有 mRNA 序列设计模型;


4. 在精准医疗领域,有药物重定向和双药联用模型。

在小分子领域,百度有很多生态合作伙伴。


索智生物是一家小分子 AI BioTech 公司,拥有自己的研发管线,在 ADMET 模型和化合物虚拟筛选上与百度展开合作。通过螺旋桨的虚拟筛选模型,10 天筛选出 100 个潜在分子,有 43 个是具有初步活性。在 7 个可采买的湿实验分子中,发现 1 个有较高的活性,成为潜力较大的苗头化合物。


望石智慧是一家小分子 AI BioTech 公司,专注在从靶点发现到化合物筛选,到 PCC 候选化合物的阶段。尤其是在高通量虚拟筛选阶段需要大量弹性的算力,百度智能提供弹性潮汐算力,最高降低 80% 的算力成本,同时打造性价比高的高通量虚拟筛选系统。


根据生物中心法则,DNA 转录到 RNA,RNA 翻译成氨基酸,再通过折叠到三维结构、蛋白质的空间结构决定它的功能表现。


传统探测蛋白质结构的实验手段有 X- 晶体学、核磁共振、冷冻电镜,缺点是实验方法成本高、周期长。


在 2020 年 CASP14 的竞赛中,DeepMind 团队推出的 AlphaFold2 横空出世,获得第一,分数也达到 92.4,意味着 AlphaFold2 可以替代实验方式去预测蛋白质一级序列。


AlphaFold2 基于独特的神经网络和训练过程设计,端到端地进行了蛋白质结构的学习。整个算法框架通过协同学习蛋白质的多序列比对(MSA)和氨基酸(Pairwise)的表征,将蛋白质序列的进化信息,蛋白质结构的物理和几何约束信息结合到深度学习网络中,包括数据预处理、Evoformer 和 Structure Module 三个模块。Structure Module 把 Evoformer 得到的表征解码成蛋白质每个重原子坐标的任务。


AF2 是存在一些不足,比如只开源了推理代码,依赖 Google 的计算框架 JAX,模型训练效率很低等等问题,所以国内企业都在重新训练 AF2 模型,比如百度的 HelixFold、深势科技的 Uni-Fold、OpenFold、RFold、Meta 的 ESMFold、华深智药、分子之心、百图生科等等。


AF2 模型训练的数据需要 TB 级别,依赖结构数据库和序列数据库 PDB,AF2 训练一次需要 128 张 TPU 和 2 周时间,迁移到 PyTorch 框架的 OpenFold 训练一次需要 128 张 A100-40G 和 10.9 天时间。

百度螺旋桨团队基于飞桨框架复现 AF2 训练过程,使用 128 张 A100-40G,训练 7.5 天,训练效率远超于 AF2。如果采用混合并行训练策略,最快只需要 5.2 天。



百度在蛋白质结构预测推出了 HelixFold 和 HelixFold_Single 模型,下图展示的螺旋桨平台测试的 MSA 序列数据。


如何去实现训练 AF2,HelixFold 大模型呢?


百度百舸·AI 异构计算平台是面向 AI 原生云时代打造的 AI 基础设施,主要由 AI 计算、AI 存储、AI 加速、AI 容器四大部分组成,在算力类型、通信效率、数据吞吐、资源管理、任务调度等方面进行适配和优化,可以承载 AF2 大模型的训练,蛋白质结构预测模型训练效果提升 200%。


AI 计算提供强大的计算和网络能力,百度自研的 X-MAN 超级 AI 计算机,是业界首创的四路 AI 服务器,支持 NVIDIA,Intel,昆仑芯等 AI 异构处理器,满足对算力的需求。


AI 存储提供海量数据存储和高速处理能力,并行文件存储 PFS,专注于 AI 计算场景,具备低延时,高吞吐,大带宽等特点。


AI 加速提供存训推一体化加速能力,全面加速了数据湖存储访问、分布式训练和推理效率。

AI 容器,提供 GPU 调度、AI 作业调度等能力,支持双引擎 GPU 容器虚拟化方案,可有效提升资源利用率。


百度昆仑芯第二代采用 7nm 先进工艺、100% 自研 XPU 架构,相比第一代性能提升 2-3 倍,同时提供全方位的软件工具包和昆仑 SDK。


昆仑芯在生物计算领域也做了很多的探索以及优化工作,其中包括 Gromacs 分子动力学软件加速,R200 相比 CPU 加速 25 倍;在基因序列 BLAST 软件中,R200 相比 CPU 加速 2-4 倍;在 OpenFold 推理任务中,R200 相比 A10 提升 3-10 倍,在 ESM 蛋白质语言模型推理中,R200 相比 A100 提升 4 倍,在 MSA-Transformer 蛋白质语言模型推理中,R200 相比 A100 提升 11.79 倍等。


百图生科使用百度百舸·AI 异构计算平台,构建业界领先的 AI 模型训练与推理的高性能计算集群,同时基于 AI 技术 + 生物领域数据共同打造全球最大的生物多模态模型 xTrimo,并推出了 xTrimoABFold 抗体结构预测和 xTrimoDock 复合物结构预测等模型,适用于靶点发现和药物开发多个环节。


百图生科与百度智能云在蛋白质三维结构预测模型上进行了合作,在没有同源序列的帮助下,对标 AlphaFold2 预测的 TM-Score 结果,从 0.3 显著提高到 0.7。



mRNA 疫苗相比传统疫苗具备有效性高、生产成本低等优势,相比传统疫苗(减毒,灭活,重组亚单位等疫苗),mRNA 疫苗生产工艺简单,无需细胞培养或动物源基质,合成速度快、成本低。


mRNA 的作用机制是将编码病毒抗原的 mRNA 注入体内,由人体自身细胞产生对应的抗原,以此激活特异性免疫。


mRNA 疫苗相比同属核酸疫苗的 DNA 疫苗,mRNA 疫苗发挥作用无需进入细胞核,没有整合至宿主基因组的风险。


mRNA 疫苗研发企业的技术差异主要体现在核酸序列修饰设计和递送载体成分及组装,构成其核心技术壁垒。

mRNA 疫苗研发仍面临稳定性差的问题:一个是冷链保存问题,mRNA 需要零下 70-20 摄氏度,不过目前头部企业 Moderna 正研发 2-8 摄氏度保存的 mRNA 疫苗。第二个是序列不稳定导致的免疫原性降低。

百度在 mRNA 疫苗研发领域提供三个算法:LinearFold 是最快预测二级 RNA 结构的算法,在新冠病毒全基因组序列二级结构预测时间从 55 分钟降低到 27 秒。LinearPartition 是对碱基配对的预测算法。


LinearDesign 根据给定的蛋白序列,能更快地设计出蛋白质表达水平更高的 mRAN 序列。其中,该算法十几分钟可以完成新冠病毒 mRNA 序列设计,同时该算法在小鼠实验上也取得优异的实验结果。


LinearDesign 采用动态规划算法,将衡量 mRNA 序列蛋白质翻译效率的指标 —— 码子适应指数(CAI)、序列稳定性指标(MFE) —— 进行联合优化。


同时,LinearDesign 算法与药企赛诺菲和斯微生物展开了研发合作,将百度的 LinearDesign 算法应用到实际药物研发管线中,在序列的稳定性上有明显的提升。


基因检测技术包括 PCR 技术、基因测序、FISH、基因芯片等。


大家熟知的新冠核酸检测指的是通过对人体的痰液、鼻咽拭子、肺泡灌洗液、血液、粪便等样本进行化验,观察是否存在致病微生物病毒核酸。其原理是利用荧光定量 PCR 技术,将致病微生物病毒的基因序列进行扩增,观察荧光信号的强弱。


百度主要关注的是基因测序技术,包括一代测序 Sanger、二代测序 NGS、三代测序 TGS。基因测序可以认为是 DNA 测序,通过测序设备对脱氧核糖核酸(DNA)的碱基排列顺序进行测定。

百度智能云提供基因测序整体解决方案,包含数据上云、基因计算、数据存储、以及数据分发。


NGS 测序包含一级、二级、三级分析过程,其中一级分析指的是碱基识别,将测序仪器产生的原始信号转换为核苷酸碱基,最终生成核苷酸序列或读出序列。二级分析指的是读出序列比对和变异识别,将 FASTQ 序列通过 BWA、SamTool、GATK 工具,包含序列质控、比对、排序、去重等环节生成 VCF 格式文件。三级分析指的是进行突变的预测分析,最终把数据交付给下游机构。


在数据上云环节,百度提供数据流转平台 CloudFlow、月光宝盒、百度网盘上云等服务。在计算环节,能提供 SGE、Slurm 调度器,结合工作流 Cromwell、NextFlow 等,将任务投递到计算调度集群进行计算。在存储环节,可以将得到的这些数据进行 OLAP 分析,再保存至对象存储 BOS 进行分层存储等。在分发环节通过百度网盘的方式进行数据分发,对象存储 BOS 中的数据可以通过内网同步到百度网盘。传统分发方式是超过 500G 通过硬盘寄送,现在可通过百度网盘进行分发,同时具备不限速下载的功能。


目前对象存储 BOS 实现了百度网盘的内网互通,将 BOS 中的文件同步到网盘,再进行极速分发给下游机构,支持个人网盘和企业网盘的用户,解决了测序服务商多年在交付遇到的问题。


3. 药物研发中的数据隐私计算


AI 制药在数据管理上遇到诸多挑战:


1. 数据稀少,药物研发的数据来源主要来自公开数据集、临床数据、商业数据库,大部分有价值数据都掌握在药企和 CRO;


2. 数据格式复杂,比如患者数据的内容多样、形式及存储格式各异,包括多种格式的字母、数字数据、X 射线、病理和临床测试报告图像等;


3. 数据流通安全要求高,AI 在药物研发中的应用需要大量的高质量数据,如何保证数据在各个环节安全的流通,同时打破数据孤岛;


4. 数据监管要求严,作为监管最严格的行业之一,对药物开发过程的每个阶段进行全面披露和透明化。


以隐私计算中的联邦学习为例,2019 年 6 月 1 日,由 10 家顶尖制药企业、2 所欧洲大学、4 家初创公司、1 家 AI 药物研发公司共同发起的 MELLODDY 项目开始运行。MELLODDY 旨在创建一个建模平台,解决刚才提到的数据管理上的挑战。在该平台上利用多家制药企业的数据,不中心化原始数据。通过分布式数据协作,从而建立更好的 AI 模型,更高效地发掘数据的价值,加速药物研发。



百度智能云在数据流通方面提供三种解决方案,包括机密计算 TEE、联邦学习、安全沙箱。


机密计算指的是基于硬件构建虚拟安全区域,在数据可用不可见的情况下实现联合计算/联合建模。


联邦学习指的是基于密码学加密方式在数据不出域的情况下实现联合计算和建模。基于数据安全和隐私保护技术,在数据不出本地的情况下,在多个参与方之间通过共享加密数据的参数交换与优化,进行机器学习,建立虚拟共享模型。从而实现数据的多方协同和授权共享,得到更准确、更高效的模型和决策。


安全沙箱指的是基于权限访问控制、数据脱敏/抽样等技术,实现「数据看得见拿不走」的情况下,数据拥有方单向开放数据给数据处理方,将运行环境和调试环境分离,外部数据分析人员只能在调试环境对样本数据进行数据分析、模型构建,然后将模型部署至运行环境进行训练,最后只输出运行结果。


在隐私计算领域,基于百度智能云提供的能力,中科院微生物所、各级疾控中心、研究机构汇聚海量微生物数据资源,通过核酸序列/蛋白序列同源性比对快速完成疾病筛查、病原菌检测。


通过百度智能云的点石安全计算平台,集成复杂算法,汇聚各方数据,提供联合计算和联合分析能力,结合区块链保证数据处理全生命周期存证溯源。


目前百度和众多生命科学领域产业界,学术界展开合作。百度希望携手合作伙伴,共赴产业智能化的星辰大海。

感兴趣的小伙伴们,也可以直接访问 http://paddlehelix.baidu.com ,体验试用。

发布于: 刚刚阅读数: 4
用户头像

关注百度开发者中心,收获一手技术干货。 2018-11-12 加入

汇聚百度所有对外开放技术、平台和服务资源,提供全方位支持,助力开发者加速成功,实现开发者、消费者和百度三方共赢。https://developer.baidu.com/

评论

发布
暂无评论
云智一体,深入生命科学_云智一体_百度开发者中心_InfoQ写作社区