【论文解读】人工智能时代的科学发现
一、简要介绍
人工智能(AI)正越来越多地融入到科学发现中,以增强和加速研究,帮助科学家产生假设、设计实验、收集和解释大型数据集,并获得仅使用传统的科学方法可能无法获得的见解。在这里,论文研究了过去十年的突破,包括自我监督学习,它允许模型在大量的未标注的数据上进行训练,以及几何深度学习,它利用关于科学数据结构的知识来提高模型的准确性和有效性。生成型人工智能方法可以通过分析不同的数据模式,包括图像和序列在内的各种数据模式来创建设计,如小分子药物和蛋白质。论文将讨论这些方法如何帮助科学家完成整个科学过程,以及尽管取得了这些进展,但仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进,而数据质量和管理不善所带来的挑战仍然存在。这些问题跨越了科学学科,需要开发基本的算法方法,有助于科学理解或自主获取它,使其成为人工智能创新的关键重点领域。
二、研究背景
通过如何收集、转化和理解数据,为形成科学的见解和理论奠定了基础。2010 年代初深度学习的兴起大大扩大了这些科学发现过程的范围和雄心。人工智能(AI)越来越多地跨科学学科用于集成大量数据集、细化测量、指导实验、探索与数据兼容的理论空间,并提供与科学工作流程集成的可操作和可靠的模型。
数据收集和分析是科学理解和发现的基础,这是科学的两个中心目标,而定量方法和新兴技术,从显微镜等物理仪器到 bootstrapping 等研究技术,长期以来一直被用于实现这些目标。20 世纪 50 年代数字化的引入为计算在科学研究中的普遍应用铺平了道路。自 2010 年代以来,数据科学的兴起使人工智能能够通过从大型数据集中识别与科学相关的模式来提供有价值的指导。
尽管科学实践和程序在科学研究的各个阶段有所不同,但人工智能算法的发展跨越了传统上孤立的学科(图 1)。这种算法可以加强科学研究的设计和执行。通过优化参数和功能、自动化收集、可视化和处理数据的程序、探索候选假设的广阔空间、生成假设并估计它们的不确定性以提出相关的实验性,它们正成为研究人员不可或缺的工具。
自 2010 年代初以来,由于大型数据集的可用性,在快速和大规模并行计算和存储硬件(GPU 和超级计算机)的辅助下,以及结合大规模并行计算和新算法,人工智能方法的能力得到了极大的提高。后者包括深度表示学习(Box 1),特别是多层神经网络,能够识别基本的、紧凑的特征,这些特征可以同时解决构成科学问题基础的许多任务。其中,几何深度学习(Box 1)已被证明有助于整合科学知识,以物理关系、先验分布、约束和其他复杂描述符的紧凑数学陈述呈现,如分子中原子的几何形状。自监督学习(Box 1)使得在标记或未标记数据上训练的神经网络能够将学习到的表示转移到不同的领域,但很少有标记的例子,例如,通过预先训练大型基础模型,并使它们适应,以解决不同领域的不同任务。此外,生成模型(Box 1)可以估计一个复杂系统的底层数据分布,并支持新的设计。与人工智能的其他用途不同,强化学习方法(Box 1)通过探索许多可能的场景,并根据预期的实验分配不同的行动等指标,找到环境的最佳策略。
在人工智能驱动的科学发现中,科学知识可以使用适当的归纳偏差(Box 1)纳入人工智能模型中,归纳偏差是表示结构、对称、约束和先验知识的假设。然而,应用这些定律可能导致方程过于复杂,人类无法解决,即使是用传统的数值方法。一种新兴的方法是将科学知识纳入人工智能模型,通过包括有关基本方程式的信息,如物理定律或分子结构原理和蛋白质折叠中的结合。这种归纳偏差可以通过减少达到相同精度水平所需的训练示例数量,并将分析扩展到大量未探索的科学假设空间,来增强人工智能模型。
与利用人工智能的其他领域相比,将人工智能用于科学创新和发现提出了独特的挑战。最大的挑战之一是科学问题中假设空间的巨大,这使得系统的探索不可行。例如,在生物化学中,估计有 1060 个类药物分子需要探索。人工智能系统有潜力通过加速过程并提供接近实验精度的预测,从而彻底改变科学工作流程。然而,为人工智能模型获得可靠的注释数据集存在挑战,这可能涉及耗时和资源密集型的实验和模拟。尽管存在这些挑战,但人工智能系统可以实现高效、智能和高度自主的实验设计和数据收集,其中人工智能系统可以在人类的监督下运行,以评估、评估和对结果采取行动。这种能力促进了人工智能代理的发展,这些代理在动态环境中不断相互作用,例如,可以做出实时决策来导航平流层的气球。人工智能系统可以在解释科学数据集和从科学文献中提取关系和知识方面发挥宝贵的作用。最近的研究表明,无监督语言人工智能模型有可能捕获复杂的科学概念,如元素周期表,并在功能材料被发现前数年预测它们的应用,这表明关于未来发现的潜在知识可能嵌入到过去的出版物中。
最近的研究进展,包括成功解开了已有 50 年历史的蛋白质折叠问题,以及人工智能驱动的含有数百万粒子的分子系统模拟,证明了人工智能在解决具有挑战性的科学问题方面的潜力。然而,这一显著的发现前景也伴随着“人工智能对科学”(AI4science)这一新兴领域面临的重大挑战。与任何新技术一样,AI for science 的成功取决于论文将其整合到常规实践中,并理解其潜力和局限性的能力。人工智能在科学发现中被广泛采用的障碍包括发现过程中每个阶段特定的内部和外部因素,以及对方法、理论、软件和硬件的实用性以及潜在的误用的关注。论文探讨人工智能科学的发展并解决关键问题,包括科学的行为、传统的怀疑主义和实施挑战。
三、人工智能辅助数据收集和管理科学研究(AI-aided data collection and curation for scientific research)
由实验平台收集的数据集的规模和复杂性不断增加,导致在科学研究中越来越依赖于实时处理和高性能计算,以有选择地存储和分析以高速率生成的数据。
数据收集(Data selection)
一个典型的粒子碰撞实验每秒产生超过 100tb 的数据。这种科学实验正在推动现有数据传输和存储技术的极限。在这些物理实验中,超过 99.99%的原始仪器数据代表了必须实时检测并丢弃以管理数据率的背景事件。为了为未来的科学研究识别小概率事件,深度学习方法用算法取代了预先编程的硬件事件触发器,这些算法搜索异常信号,以检测在压缩过程中可能被遗漏的不可预见或罕见现象。背景过程可以使用一个深度自动编码器(Box 1)进行通用性建模。自动编码器为先前脱离背景分布的看不见的信号(小概率事件)返回更高的损失值(异常分数)。与有监督的异常检测不同,无监督的异常检测不需要注释,并已被广泛应用于物理学、神经科学、地球科学、海洋学和天文学中。
数据标注(Data annotation)
训练监督模型需要带有注释标签的数据集,这些数据集提供监督信息来指导模型训练,并从输入中估计目标变量上的函数或条件分布。伪标记和标签传播是费力的数据标签的诱人替代方案,允许仅基于一小部分精确注释对大量未标记的数据集进行自动注释。在生物学中,由于实验生成标签的困难,将新特征分子分配功能和结构标签的技术对于监督模型的下游训练至关重要。例如,尽管下一代测序技术激增,但只有不到 1%的测序蛋白被注释具有生物学功能。另一种进行数据标记的策略是利用对人工标记的数据进行训练的替代模型来标注未标记的样本,并使用这些预测的伪标签来监督下游的预测模型。相比之下,标签传播通过基于特征嵌入(Box 1)构建的相似度图,将标签扩散到未标记的样本上。除了自动标记外,主动学习(Box 1)还可以识别出要由人类标记的信息最丰富的数据点或要进行的信息最丰富的实验。这种方法允许用更少的专家提供的标签来训练模型。数据注释中的另一个策略是开发利用领域知识的标签规则。
数据生成(Data generation)
深度学习性能随着训练数据集的质量、多样性和规模的提高而提高。创建更好的模型的一个卓有成效的方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。除了手动设计这样的数据增强(Box 1),强化学习方法还可以发现一个自动数据增强的策略,这是灵活的和不可知的下游模型的。深度生成模型,包括变分自编码器、生成对抗网络、归一化流和扩散模型,学习底层数据分布,并可以从优化的分布中采样训练点。生成对抗网络(Box 1)已被证明是有益的科学图像,因为他们能合成多个领域的真实图像如粒子碰撞事件,病理幻灯片,胸部 x 射线,磁共振对比,三维(3D)材料微观结构,蛋白质功能,基因序列。生成模式中的一种新兴技术。
数据细化(Data refinements)
精密仪器,如超高分辨率激光器和非侵入性显微镜系统,可以直接测量物理量,或通过计算真实世界的物体进行间接测量,产生高度精确的结果。人工智能技术显著提高了测量分辨率,降低了噪声,消除了测量圆度的误差,导致跨站点的高精度一致。人工智能在科学实验中的应用例子包括时空的可视化区域,如黑洞,捕获物理粒子碰撞,提高活细胞图像的分辨率,以及更好地检测跨生物环境的细胞类型。深度卷积方法利用了算法的进步,如光谱反褶积、柔性稀疏性和生成能力,可以将较差的时空分辨率测量值转换为高质量、超分辨率和结构化的图像。在各种科学学科中,一个重要的人工智能任务是去噪,它包括从噪声中区分相关信号,并学习去除噪声。去噪自动编码器可以将高维输入数据投影到更紧凑的基本特征表示中。这些自动编码器最小化了未损坏的输入数据点之间的差异和它们从其噪声损坏版本的压缩表示之间的重建。其他形式的分布学习自动编码器,如变分自动编码器(VAEs;Box 1),也经常被使用。VAEs 通过潜在的自编码来学习一个随机表示,该自编码保留了基本的数据特征,而忽略了非基本的变异源,可能代表随机噪声。例如,在单细胞基因组学中,优化基于数计数的基因激活载体通常被用于改进蛋白质-rna 表达分析。
四、学习有意义的科学数据表示(Learning meaningful representations of scientific data)
深度学习可以在不同的抽象层次上提取科学数据的有意义的表示,并优化它们以指导研究,通常是通过端到端学习(Box 1)。高质量的表示应该保留尽可能多的关于数据的信息,同时保持简单和可访问的信息。科学上有意义的表征是紧凑的、有区别的,解开变异的潜在因素,并编码概括许多任务的潜在机制。在这里,论文介绍了三种新兴的策略来满足这些要求:几何先验、自我监督学习和语言建模。
几何先验(Geometric priors)
在学习表示中整合几何先验已被证明是有效的,因为几何和结构在科学领域发挥着核心作用。对称性是几何学中一个被广泛研究的概念。它可以用不变性和等方差(Box 1)来描述一个数学函数的行为,如神经特征编码器,在一组变换下,如刚体动力学中的 SE (3)组。重要的结构性质,如分子体系的二级结构含量、溶剂的可及性、残基的致密性和氢键模式,是不变的空间方向。在对科学图像的分析中,物体在图像中被平移时没有变化,这意味着图像分割掩模在平移上是等价的,因为当输入像素被平移时,它们的变化是等价的。将对称性整合到模型中可以有利于使用有限标记数据集的人工智能,如三维 RNA 和蛋白质结构,并可以提高外推预测,以输入与模型训练中遇到的显著不同的输入。
几何深度学习(Geometric deep learning)
图神经网络已经成为对具有潜在几何和关系结构的数据集的深度学习的领先方法(图 2a)。从更广泛的意义上说,几何深度学习包括发现关系模式,并为神经网络模型配备归纳偏差,通过神经信息传递算法明确利用编码的局部信息。根据科学问题,开发了各种图表示来捕获复杂的系统。方向边缘可以促进玻璃系统的物理建模,超图边连接多个节点用于染色质结构理解,模型训练多模态模型用于创建预测模型在基因组学,和稀疏,不规则和高度关系图被应用于许多大型强粒子对撞机物理任务,包括重建粒子探测器读数和物理信号对背景的歧视过程。
自我监督学习(Self-supervised learning)
当只有少数标注样本可用于模型训练时,或者当一个特定任务的标注数据非常昂贵时,监督学习可能是不够的。在这种情况下,利用标注和非标注数据可以提高模型性能和学习能力。自监督学习是一种技术,使模型能够学习数据集的一般特征,而不依赖于明确的标签。有效的自监督策略包括预测图像的遮挡区域,预测视频中过去或未来的帧,以及使用对比学习来教模型区分相似和不同的数据点(图 2b)。自监督学习可以是一个关键的预处理步骤,以学习大型未标注数据集中的可转移特征,然后对小标注数据集进行微调模型以执行下游任务。这种对科学领域有广泛理解的预训练模型是通用预测器,可以适应各种任务,从而提高标签效率,超越纯粹的监督方法。
语言建模(Language modelling)
掩码语言建模是一种流行的自然语言和生物序列的自监督学习方法(图 2c)。原子或氨基酸(标注)排列成结构以产生分子和生物的功能,类似于字母如何形成单词和句子来定义文档的意义。随着自然语言和生物序列处理的不断进化,它们相互影响了彼此的发展。在训练过程中,目标是预测序列中的下一个令牌,而在基于掩码的训练中,自我监督任务是使用双向序列上下文恢复序列中的掩码令牌。蛋白质语言模型可以编码氨基酸序列,以捕获结构和功能特性,并评估病毒变异的进化适应度。这种表示可以在各种任务中转移,从序列设计到结构预测。在处理生化序列时,化学语言模型有助于有效地探索巨大的化学空间。它们已被用来预测性质,计划多步合成和探索化学反应的空间。
Transformer 架构(Transformer architectures)
Transformer(Box 1)是一种神经结构模型,它可以通过灵活地建模任意令牌对之间的交互来处理令牌序列,超过了早期使用递归神经网络进行序列建模的努力。变形金刚主导了自然语言处理,并已成功应用于一系列问题,包括地震信号检测、DNA 和蛋白质序列建模、序列变异对生物功能的影响建模、和符号回归。虽然 Transformer 统一了图神经网络和语言模型,但 Transformer 的运行时和内存占用可以随着序列的长度进行二次缩放,这导致了长期建模和线性化注意机制解决的效率挑战。因此,无监督或自监督的生成式预训练 Transformer,参数有效的微调,被广泛使用。
神经算子(Neural operators)
标准的神经网络模型可能不适用于科学应用,因为它们假定一个固定的数据离散化。这种方法不适用于许多以不同分辨率和网格收集的科学数据集。此外,数据通常从连续区域的潜在物理现象中采样,如地震活动或流体流动。神经算符通过学习函数空间之间的映射来学习对离散化不变的表示。神经算子保证是离散化不变的,这意味着它们可以处理输入的任何离散化,并收敛到网格细化的极限。一旦神经操作员被训练好,它们就可以以任何分辨率进行评估,而不需要重新训练。相比之下,当部署期间的数据分辨率从模型训练中发生变化时,标准神经网络的性能可能会下降。
基于人工智能的科学假设的生成(AI-based generation of scientific hypotheses)
可验证的假设是科学发现的核心。它们可以采取多种形式,从数学中的符号表达到化学中的分子和生物学中的遗传变异。制定有意义的假设可能是一个费力的过程,例如约翰内斯·开普勒,他花了四年时间分析恒星和行星的数据,然后得出了一个导致行星运动定律发现的假设。人工智能方法在这一过程的几个阶段都会有所帮助。他们可以通过从嘈杂的观测结果中识别出候选的符号表达式来产生假设。它们可以帮助设计物体,比如与治疗目标结合的分子或与数学猜想相矛盾的反例 9,建议在实验室中进行实验评估。此外,人工智能系统可以学习假设的贝叶斯后验分布(Box 1),并利用它来生成与科学数据和知识相兼容的假设。
科学假设的黑盒预测器(Black-box predictors of scientific hypotheses)
为科学研究确定有希望的假设需要有效地检查许多候选假设,并选择那些能够最大限度地提高下游模拟和实验的产量的假设。在药物发现过程中,高通量筛选可以评估成千上万到数百万个分子,算法可以优先考虑对哪些分子进行实验研究。模型可以被训练来预测一个实验的效用,如相关的分子性质或符合观察结果的符号公式。然而,这些预测因子的实验基础真实数据可能是许多分子无法获得的。因此,弱监督学习方法(Box 1)可以用于训练这些模型,其中有噪声的、有限的或不精确的监督被用作训练信号。这些作为人类专家注释的成本效益的代理,在硅计算或更高保真度实验中昂贵(图 3a)。
经过高保真模拟训练的人工智能方法已被用于有效筛选大型分子库,如有机发光二极管候选材料和 110 亿基于合成的候选配体。在基因组学中,训练后从 DNA 序列中预测基因表达值的 Transformer 结构可以帮助确定遗传变异的优先排序。在粒子物理学中,识别质子中的内在魅力夸克包括筛选所有可能的结构和拟合每个候选结构的实验数据。为了进一步提高这些过程的效率,人工智能选择的候选者可以发送到中或低通量实验中,使用实验反馈持续细化候选者。这些结果可以使用主动学习和贝叶斯优化(Box 1)反馈到人工智能模型中,允许算法改进他们的预测,并专注于最有前途的候选者。
当假设涉及到分子等复杂物体时,人工智能方法已经变得无价。例如,在蛋白质折叠中,AlphaFold 可以从原子精度预测氨基酸序列中蛋白质的三维原子坐标,即使对于结构不同于训练数据集中的任何蛋白质的蛋白质也是如此。这一突破导致了各种人工智能驱动的蛋白质折叠方法的发展,如 RoseTTAFold。除了正向问题外,人工智能方法也越来越多地用于旨在理解产生一组观察结果的因果因素的反问题。逆问题,如逆折叠或固定主干设计,可以使用训练了数百万个蛋白质结构的黑盒预测器从蛋白质的主干三维原子坐标中预测氨基酸序列。然而,这种黑盒人工智能预测器需要大量的训练数据集,尽管减少了对先验科学知识的依赖,但提供的可解释性有限。
导航组合性假设空间(Navigating combinatorial hypothesis spaces)
尽管对所有与数据兼容的假设进行抽样是令人生畏的,但一个可管理的目标是寻找一个好的假设,它可以表述为一个优化问题。人工智能策略与依赖于人工设计的规则不同,人工智能策略可以用来估计每次搜索的反馈,并对具有更高值的搜索方向进行优先排序。通常使用由强化学习算法训练的代理来学习该策略。代理学习在搜索空间中采取最大化反馈信号的行动,这可以被定义为反映生成的假设或其他相关标准的质量。
为了解决优化问题,可以使用进化算法来解决符号回归任务,进化算法生成随机符号法则作为初始解集。在每一代中,候选解都有细微的变化。该算法检查任何修改是否产生了比之前的解决方案更符合观察结果的符号法则,并为下一代保留了最佳的解决方案。然而,强化学习方法正在越来越多地取代这一标准策略。强化学习使用神经网络,通过从预定义的词汇表中添加数学符号来按顺序生成一个数学表达式,并使用学习到的策略来决定下一步添加哪个符号。数学公式表示为解析树。学习到的策略将解析树作为输入,以确定要扩展什么叶节点以及要添加什么符号(来自词汇表)(图 3b)。另一种使用神经网络来解决数学问题的方法是将一个数学公式转换为一个符号的二进制序列。然后,神经网络策略可以一次一个二进制字符地概率性地顺序增长序列。通过设计一种反馈来衡量反驳猜想的能力,这种方法可以在没有关于数学问题的先验知识的情况下找到对数学猜想的反驳。
组合优化也适用于诸如发现具有理想药物特性的分子等任务,其中分子设计中的每一步都是一个离散的决策过程。在这个过程中,将一个部分生成的分子图作为学习策略的输入,对在哪里添加一个新的原子以及在分子中选定的位置添加哪个原子做出离散的选择。通过迭代地执行这一过程,该策略可以生成一系列可能的分子结构,并根据其对目标属性的适合度进行评估。搜索空间太大,无法探索所有可能的组合,但强化学习可以通过优先考虑最值得研究的分支来有效地指导搜索。强化学习方法可以通过一个训练目标进行训练,鼓励结果策略从所有合理的解决方案(具有高反馈)中取样,而不是专注于单一的好的解决方案,就像强化学习中的标准反馈最大化。这些强化学习方法已经成功地应用于各种优化问题,包括最大化蛋白质表达,规划水电以减少对亚马逊盆地的不利影响和探索粒子加速器的参数空间。
人工智能机构学到的政策是有远见的行动,最初看起来非常规,但被证明是有效的。例如,在数学中,监督模型可以识别数学对象之间的模式和关系,并帮助指导直觉和提出猜想。这些分析指出了以前未知的模式,甚至是新的世界模式。然而,在模型训练过程中,强化学习方法可能不能很好地推广到看不见的数据,因为一旦找到一系列工作良好的操作,代理可能会陷入局部最优状态。为了改进泛化性,需要采用一些探索策略来收集更广泛的搜索轨迹,以帮助代理在新的和修改后的设置中表现得更好。
优化可微假设空间(Optimizing differentiable hypothesis spaces)
科学假设通常采取离散对象的形式,如物理学中的符号公式或制药和材料科学中的化合物。虽然组合优化技术在这些问题上取得了成功,但可微空间也可以用于优化,因为它适用于基于梯度的方法,可以有效地找到局部优化。为了能够使用基于梯度的优化,经常使用两种方法。第一种方法是使用 VAEs 等模型将离散的候选假设映射到潜在可微空间中的点。第二种方法是将离散假设放松为可在可微空间中进行优化的可微对象。这种松弛可以采取不同的形式,例如用连续变量替换离散变量,或者使用原始约束的软版本。
符号回归在物理学中的应用使用了语法 VAEs。这些模型将离散符号表达式表示为使用上下文无关语法解析树,并将树映射到可微的潜在空间。然后采用贝叶斯优化优化符号法则的潜在空间,同时确保表达式在语法上有效。在一项相关的研究中,Brunton 和他的同事介绍了一种通过将可训练的权值分配给预定义的基函数来区分符号规则的方法。采用稀疏回归方法在保持紧凑的同时选择准确表示动态系统的基函数的线性组合。与等变神经网络不同,它使用预定义的归纳偏差来增强对称性,对称性可以被发现为一个域的特征行为。例如,Liu 和 Tegmark 将不对称性描述为一个平滑的损失函数,并最小化损失函数以提取先前未知的对称性。这种方法被应用于揭示黑洞波形数据集中隐藏的对称性,揭示了在历史上具有挑战性的意想不到的时空结构。
在天体物理学中,VAEs 已被用于估计基于预先训练好的黑洞波形模型的引力波探测器参数。这种方法比传统方法快 6 个数量级,因此可以捕获瞬态引力波事件。在材料科学中,热力学规则与一个自动编码器相结合,设计了一个可解释的潜在空间,用于识别晶体结构的相位图。在化学中,模型如简化分子输入线输入系统(SMILES)-VAE 可以转换 SMILES 字符串,化学结构的分子符号的形式离散的符号,计算机可以很容易理解,到一个可微的潜在空间,可以优化使用贝叶斯优化技术(图 3c)。通过将分子结构表示为潜在空间中的点,论文可以设计可微目标,并利用自监督学习基于分子的潜在表示来预测分子的性质。这意味着论文可以通过反向传播人工智能预测器的梯度来优化离散的分子结构,并一直延伸到分子输入的连续值表示。解码器可以将这些分子表示转化为近似相应的离散输入。这种方法被用于蛋白质和小分子的设计。
在潜在空间中进行优化比在原始假设空间中进行机械性方法可以更灵活地建模底层数据分布。然而,在假设空间的稀疏探索区域的外推预测可能很差。在许多科学学科中,假设空间可以比通过实验可以检验的空间要大得多。例如,据估计大约有 1060 个分子,而即使是最大的化学文库包含的分子也少于 1010 个分子。因此,迫切需要一种方法来在这些大部分未开发的地区有效地搜索和识别高质量的候选解决方案。
五、人工智能驱动的实验和仿真(AI-driven experimentation and simulation)
通过实验来评估科学假设对科学发现至关重要。然而,实验室实验可能是昂贵的和不切实际的。计算机模拟已经成为一种很有前途的替代方案,为更有效和更灵活的实验提供了潜力。虽然模拟依赖于手工制作的参数和启发式方法来模拟真实世界的场景,但与物理实验相比,它们需要在准确性和速度之间进行权衡,这就需要理解潜在的机制。然而,随着深度学习的出现,这些挑战正在通过识别和优化假设来进行有效的测试,并授权计算机模拟将观察结果与假设联系起来。
对科学假设的有效评价(Efficient evaluation of scientific hypotheses)
人工智能系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需的实验数量,节省资源。具体来说,人工智能系统可以帮助完成实验测试的两个基本步骤:计划和指导。在传统的方法中,这些步骤往往需要反复试验,这可能效率低效,甚至有时危及生命。人工智能规划为设计实验、优化实验效率和探索未知领域提供了一种系统的方法。与此同时,人工智能转向指导实验过程转向高产假设,允许系统从以前的观察中学习,并调整实验过程。这些人工智能方法可以基于模型,使用模拟和先验知识,也可以单独基于机器学习算法。
人工智能系统可以通过优化资源的使用和减少不必要的调查来帮助规划实验。与假设搜索不同,实验规划涉及到科学实验设计中所涉及的程序和步骤。其中一个例子是化学中的合成计划。合成计划包括找到一系列步骤,通过这些步骤可以从现有的化学物质中合成目标化合物。人工智能系统可以设计出生成所需化合物的合成路线,减少了人类干预的需要。主动学习也被用于材料的发现和合成。主动学习包括与实验反馈的迭代互动,并从实验反馈中学习,以完善假设。材料合成是一个复杂且资源密集型的过程,需要有效的高维参数空间的探索。主动学习使用不确定性估计来探索参数空间,并以尽可能少的步骤减少不确定性。
在一个正在进行的实验中,决策必须经常进行实时调整。然而,当仅仅由人类的经验和直觉来驱动时,这个过程可能是困难的,而且容易出错。强化学习提供了一种替代方法,可以不断地对进化的环境做出反应,并最大限度地提高实验的安全性和成功性。例如,强化学习方法已被证明对托卡马克等离子体的磁控制是有效的,其中算法与托卡马克模拟器交互,以优化控制过程的策略(图 4a)。在另一项研究中,强化学习代理使用风速和太阳高度等实时反馈来控制平流层气球,并找到有利的导航风速。在量子物理学中,实验设计需要动态调整,因为未来复杂实验物化的最佳选择可能会违反直觉。强化学习方法可以通过迭代设计实验并接收实验反馈来克服这一问题。例如,强化学习算法已被用于优化量子系统的测量和控制,其中它们提高了实验效率和准确性。
用模拟的方法从假设中推断出可观测值(Deducing observables from hypotheses using simulations)
计算机模拟是一个从假设中推断可观测值的强大工具,使评估不能直接验证的假设成为可能。然而,现有的模拟技术严重依赖于很大程度上的人类对所研究系统的潜在机制的理解和知识,这可能是次优的和低效的。人工智能系统可以通过更好地拟合复杂系统的关键参数,求解控制复杂系统的微分方程和复杂系统的建模状态,以更精确和高效的学习来增强计算机模拟。
科学家通常通过创建一个涉及参数化形式的模型来研究复杂的系统,这需要领域知识来识别参数的初始符号表达式。分子力场就是一个例子,它是可解释的,但在代表广泛的功能方面的能力有限,需要强烈的归纳偏差或科学知识来产生。为了提高分子模拟的准确性,一种基于人工智能的神经潜力已经被开发出来,它适合昂贵但精确的量子力学数据,以取代传统的力场。此外,利用不确定度定量的方法定位了高维自由能表面的能量势垒,从而提高了分子动力学的效率(图 4b)。对于粗粒度分子动力学,人工智能模型已被用来通过确定系统需要从学习的隐藏复杂结构的程度来降低大型系统的计算成本。在量子物理学中,神经网络在参数化波函数或密度函数方面,由于其灵活性和精确拟合数据的能力,而取代了人工估计的符号形式。
微分方程是模拟复杂系统在空间和时间上的动力学的关键。与数值代数求解器相比,基于人工智能的神经求解器更无缝地集成了数据和物理学。这些神经求解器通过将神经网络扎根于领域知识中,将物理学与深度学习的灵活性结合起来(图 4c)。人工智能方法已被应用于求解不同领域的微分方程,包括计算流体动力学,预测玻璃系统的结构,解决刚性化学动力学问题和解决 Eikonal 方程来表征地震波的旅行时间。在动力学建模中,连续时间可以用神经常微分方程来建模。神经网络可以利用物理信息损失来参数化 Navier-Stokes 方程的解。然而,标准的卷积神经网络对于建模解决方案的精细结构特征的能力有限。这个问题可以通过学习使用神经网络建模函数之间的映射来解决。此外,求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程和图神经网络相结合来实现,通过图划分任意。
统计建模是一个强大的工具,通过建模复杂系统中的状态分布来提供复杂系统的完整定量描述。由于其能够捕获高度复杂的分布,深度生成建模最近已成为复杂系统模拟中的一种有价值的方法。一个著名的例子是基于标准化流(Box 1)的玻尔兹曼发生器。归一化流可以将任何复杂的分布映射到一个先验分布(例如,一个简单的高斯分布),然后使用一系列可逆的神经网络返回。尽管计算成本很高(通常需要数百或数千层神经层),但标准化流提供了一个精确的密度函数,这使采样和训练成为可能。与传统的模拟不同,归一化流可以通过直接从先验分布中采样并应用神经网络来产生平衡态,这具有固定的计算成本。这增强了在晶格场和规范理论中的采样,并改进了马尔可夫链蒙特卡罗方法,否则可能由于模态混合而不收敛。
六、重大挑战
为了利用科学数据,必须建立和使用具有模拟和人类专业知识的模型。这种整合为科学发现开辟了机会。然而,为了进一步提高人工智能跨科学学科的影响,需要在理论、方法、软件和硬件基础设施方面取得重大进展。跨学科合作对于实现通过人工智能全面实用的方法推进科学至关重要。
实际问题(Practical considerations)
科学数据集往往不能直接接受人工智能分析,因为测量技术的限制会产生不完整的数据集和有偏见或有冲突的读取,以及由于隐私和安全问题而导致的可访问性有限的人工智能分析。需要标准化和透明的格式来减轻数据处理的工作量。模型卡和数据表是记录科学数据集和模型的工作特征的例子。此外,联合学习和密码学算法可用于防止向公共领域发布具有高商业价值的敏感数据。利用开放的科学文献、自然语言处理和知识图技术可以促进文献挖掘,以支持材料发现、化学合成和治疗科学。
深度学习的使用对人工智能驱动的设计、发现和评估提出了一个复杂的挑战。为了自动化科学的工作流程,优化大规模的模拟代码和操作仪器,自主机器人控制可以利用预测,并在高通量合成和测试线上进行实验,创建自动驾驶实验室。生成模型在材料探索中的早期应用表明,数百万种可能的材料可以被识别为具有所需的特性和功能,并评估其可合成性。例如,King 等人结合了逻辑人工智能和机器人技术,自动生成关于酵母的功能基因组学假设,并使用实验室自动化对这些假设进行了实验测试。在化学合成中,人工智能优化了候选的合成路线,然后由机器人在预测的合成路线中指导化学反应。
人工智能系统的实际实现涉及到复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据管理和处理到用户和应用程序界面的算法实现和设计。实现上的微小变化可能导致性能上的巨大变化,并影响将人工智能模型集成到科学实践中的成功。因此,需要同时考虑数据标准化和模型的标准化。由于模型训练的随机性、不同的模型参数和不断变化的训练数据集,人工智能方法的再现性和任务依赖性。标准化的基准测试和实验设计可以缓解这些问题。提高可再现性的另一个方向是通过发布开放模型、数据集和教育项目的开源举措。
算法创新(Algorithmic innovations)
为了促进或自主获得科学理解,算法创新需要建立一个基础的生态系统,在整个科学过程中使用最合适的算法。
分布外泛化的问题是人工智能研究的前沿。对来自特定区域的数据进行训练的神经网络可能会发现一些规律,这些规律在潜在分布发生变化的不同区域中不泛化(Box 1)。虽然许多科学定律并不是普遍的,但它们的适用性通常是广泛的。与最先进的人工智能相比,人类大脑可以更好、更快地泛化到修改后的设置。一个吸引人的假设是,这是因为人类不仅建立了一个他们所观察到的统计模型,还建立了一个因果模型,也就是说,由所有可能的干预措施(例如,不同的初始状态、主体的行为或不同的制度)索引的统计模型家族。将因果关系纳入人工智能仍然是一个新兴的领域,还有很多工作要做。像自我监督学习这样的技术在科学问题上有很大的潜力,因为它们可以利用大量的无标注数据,并将它们的知识转移到低数据的机制中。然而,目前的迁移学习方案可能是特别的,缺乏理论指导,并且容易受到基础分布的变化。虽然初步的尝试已经解决了这一挑战,但还需要更多的探索来系统地测量跨领域的可转移性和防止负转移。此外,解决科学家关心的困难,人工智能方法的开发和评估必须在现实世界的场景,如合理实现的合成路径药物设计,包括校准不确定性评估器评估模型的可靠性之前过渡到现实世界的实现。
科学数据是多模态的,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热黄变)、序列(如生物序列)、图形(如复杂系统)和结构(如 3D 蛋白质配体构象)。例如,在高能物理学中,喷流是由高能夸克和胶子产生的粒子的准直喷射。从辐射模式中识别它们的子结构可以帮助寻找新的物理学。射流的子结构可以用图像、序列、二叉树、一般图和张量集来描述。虽然利用神经网络处理图像已经得到了广泛的研究,但单独处理粒子图像是不够的。类似地,孤立地使用射流子结构的其他表示也不能给出复杂系统的整体和集成系统视图。虽然集成多模态观测仍然是一个挑战,但神经网络的模块化本质意味着,不同的神经模块可以将不同的数据模态转换为通用的向量表示。
科学知识,如分子中的旋转等方差,数学中的相等约束,生物学中的疾病机制和复杂系统中的多尺度结构,都可以被纳入人工智能模型。然而,哪些原理和知识最有帮助和实用仍然不清楚。由于人工智能模型需要大量数据来拟合,当数据集较小或稀疏注释时,将科学知识纳入模型可以帮助学习。因此,研究必须建立原则性的方法,将知识整合到人工智能模型中,并理解领域知识和从测量数据中学习之间的权衡。
人工智能方法通常作为黑盒来操作,这意味着用户不能完全解释输出是如何产生的,以及哪些输入对产生输出至关重要。黑盒模型会降低用户对预测的信任,并且在现实世界实施之前必须了解模型输出的领域中,其适用性有限,如人类空间探索,以及预测对政策的影响,如气候科学。尽管有太多的可解释性技术,但透明的深度学习模型仍然难以捉摸。然而,人类大脑可以合成高水平的解释,即使不完美,可以说服其他人,这一事实提供了希望,通过以类似的高抽象水平建模现象,未来的人工智能模型将提供可解释,至少与人类大脑提供的解释一样有价值。这也表明,研究更高层次的认知可能会激发未来的深度学习模型,将当前的深度学习能力和操作可表达的抽象、原因推理和概括分布的能力结合起来。
科学行为与科学事业(Conduct of science and scientific enterprise)
展望未来,对人工智能专业知识的需求将受到两种力量的影响。首先,即将受益于人工智能应用的现存问题,比如自动驾驶实验室。第二,智能工具的能力来提高最先进的水平和创造新的机会——例如检查在实验中无法获得的在长度和时间尺度上发生的生物、化学或物理过程。在这两种力量的基础上,论文预计研究团队将改变组成,包括人工智能专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新型合作形式。最近最先进的深度学习模型继续增长。这些模型由数百万甚至数十亿个参数组成,其尺寸同比增加了 10 倍。训练这些模型包括通过复杂的参数化数学操作传输数据,并更新参数以推动模型输出到所需的值。
然而,计算这些更新的计算和数据需求是巨大的,这导致了巨大的能量消耗和高昂的计算成本。因此,大型科技公司在计算基础设施和云服务上投入了大量资金,推动了规模和效率的限制。虽然营利性和非学术性组织可以获得大量的计算基础设施,但高等教育机构可以更好地跨多个学科进行集成。此外,学术机构拥有独特的历史数据库和测量技术,这些技术可能在其他地方不存在,但对 AI4science 是必需的。这些补充资产促进了产业-学术界合作的新模式,这可能影响所探索的研究问题的选择。
随着人工智能系统的性能可以与人类媲美并超过人类,将其作为常规实验室工作的替代品正变得可行。这种方法使研究人员能够从实验数据中迭代地开发预测模型,并选择实验来改进它们,而无需手动执行费力和重复的任务。为了支持这种范式转变,正在出现教育方案,以培训科学家在科学研究中设计、实施和应用实验室自动化和人工智能的工作。这些项目帮助科学家了解何时使用人工智能是合适的,并防止从人工智能分析中得出的误解结论。
人工智能工具的滥用和对其结果的误解可能会产生重大的负面影响。广泛的应用加剧了这些风险。然而,人工智能的滥用并不仅仅是一个技术问题;它还取决于那些主导人工智能创新和对人工智能实施的投资的动机。建立道德审查程序和负责任的实施策略至关重要,包括对 AI 的范围和适用性的全面概述。此外,必须考虑与人工智能相关的安全风险,因为重新利用两用算法实现已经变得更容易。由于算法适用于广泛的应用程序,它们可以为一个目的开发,但也可以用于另一个目的,从而造成对威胁和操作的漏洞。
七、总结
人工智能系统可以有助于科学理解,能够研究无法以任何其他方式可视化或探索的过程和对象,并通过从数据中构建模型,并将其与模拟和可伸缩计算相结合,系统地激发想法。为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决人工智能带来的安全和安全问题。为了在科学研究中负责任地使用人工智能,论文需要测量人工智能系统的不确定性、误差和效用的水平。这种理解对于准确解释人工智能输出和确保不会过于依赖潜在的有缺陷的结果至关重要。随着人工智能系统的不断发展,优先考虑带有适当保障措施的可靠实施是最小化风险和最大化利益的关键。人工智能有可能开启以前无法触及的科学发现。
版权声明: 本文为 InfoQ 作者【合合技术团队】的原创文章。
原文链接:【http://xie.infoq.cn/article/01a30e53d71d498c40c2b4081】。文章转载请联系作者。
评论