写点什么

深度学习 + 可解释 AI:材料科学新视角

作者:算AI
  • 2024-11-30
    天津
  • 本文字数:4686 字

    阅读完需:约 15 分钟

深度学习+可解释AI:材料科学新视角

两种或者多种化学元素有可能形成稳定的化合物,例如氢和氧可以按照 2 : 1 的比例结合而生成水(H2O),氯和钠可以按照 1 : 1 的比例结合而生成氯化钠(NaCl)。哪两种或多种化学元素按照什么样的比例,能够生成稳定的化合物呢?材料科学领域的 AI 模型 ElemNet[1]可以预测这个问题的答案。

ElemNet 模型

ElemNet 模型是多年前问世的一个材料科学领域的深度学习模型,由多个全连接层和 Dropout 层组成,其大体结构如下图所示。



ElemNet 模型的输入数据是 86 维向量,表示的是 86 种化学元素在一种化合物中的元素数量占比。向量中的每一维度代表一种化学元素;一个维度上的 0 表示相应的化学元素不出现在向量所代表的化合物中,大于 0 的小数表示相应的化学元素的数量占化合物中全部元素数量的比例,例如在表示 H2O 的向量中,代表 H 和 O 的数值分别为 0.67 和 0.33,因此,一个向量的各个维度上的数值之和总是等于 1。


ElemNet 模型在推理时,可以仅根据输入的化学元素比例,输出相关比例的化学元素所形成的化合物中的【最低】的形成能(formation energy)。形成能是当化学元素结合生成化合物时,在能量上发生的变化。一个化合物的形成能可以用来衡量该化合物的稳定性:当一个化合物的形成能为负值时,该化合物在形成时释放能量,该化合物就倾向于稳定;相反,当一个化合物的形成能为正值时,该化合物就倾向于不稳定。


ElemNet 模型在训练时使用了已标注的 30 多万种化合物的数据。训练数据中含有 86 种化学元素;这 86 种化学元素在以下的化学元素周期表中用蓝色标出。



如果 ElemNet 模型预测准确的话,对于尚未进行实验室合成的化合物,就可以先通过 ElemNet 模型,根据预测的形成能进行筛选,从而能够加速新材料的发现。如此一来,ElemNet 模型的可靠性就非常重要;错误的预测不仅会影响材料实验的进度,还会增加材料实验的成本。


美国西北大学的研究人员近期在 Nature 旗下的期刊 Scientific Reports(科学报告)上发表了一篇论文[2],介绍了作者们基于可解释 AI 的方法、以及材料科学知识,对 ElemNet 模型的可靠性进行的一系列分析。论文的作者们为有关的一系列分析命名为 XElemNet(与 ElemNet 模型的名称接近,最前面多了一个 X)。


XElemNet 分析框架中的主要分析包括:


  • Post-hoc Analysis(事后分析),用于分析和解释 ElemNet 模型所学到的知识和能力;

  • Transparency Explanations(透明性解释),采用传统的机器学习来模拟 ElemNet 模型,借助传统的机器学习的容易解释的特点,来解释 ElemNet 模型的运行机制。

Post-hoc Analysis(事后分析)

在可解释 AI 的众多分析方法中[3],一些分析方法侧重于分析 AI 模型内部的参数、结构等;相比之下,Post-hoc Analysis(事后分析)是另外一类比较常见的、针对 AI 模型已经学到的知识和能力进行分析和解释的方法。


XElemNet 分析框架中的事后分析包括以下两种具体的分析:


  • 对于形成能的凸包(convex hull)的分析;

  • 对于预测中最稳定化合物和最不稳定化合物的分析。

对于形成能的凸包的分析

在 XElemNet 分析框架中,作者们将 86 种化学元素的两两组合输入到 ElemNet 模型中,输入时两种化学元素的比例从 0.05 : 0.95 开始,以 0.05 的变化幅度逐渐变化到 0.95 : 0.05,这样一来,每一对化学元素就具有 19 组输入数据。对于每一组输入数据,ElemNet 模型能够预测出所形成的化合物中的【最低】的形成能;因此,上述 19 组输入数据就会产生 19 个预测出的形成能数值,如下图所示。下图中的横轴代表一种化学元素所占的比例,纵轴代表预测出的形成能。



由于 ElemNet 模型预测出的是【最低】的形成能,上图中的各个点就可以构成形成能的凸包;该凸包可以用来针对两种化学元素的各种相对比例,显示出【最低】的形成能,并协助发现最稳定化合物的元素比例。


在化学元素中,碱金属(包括锂、钠、钾等)的化合价通常是+1,卤素(包括氟、氯、溴、碘等)的化合价通常是-1,因此,碱金属和卤素理论上有可能按照 1 : 1 的比例,形成稳定的二元化合物,例如在氟化钠(NaF)中,氟和钠的数量占比各为 50%。


再例如,钠的化合价通常是+1,而-2 是氧的最常见的化合价,因此在钠和氧有可能形成的稳定的二元化合物中,钠和氧的比例最可能是 2 : 1,也就是说,钠和氧的数量占比分别为 67%和 33%。


如果 ElemNet 模型准确的话,它能否预测出氟化钠(NaF)和氧化钠(Na2O)的稳定性呢?


此外,在 ElemNet 模型的训练中,输入 ElemNet 模型的数据仅包括化合物中各化学元素的占比,而不包括各化学元素的化合价等其它知识。训练后的 ElemNet 模型能否在某种程度上体现出化学元素的化合价等知识呢?


ElemNet 模型针对氟和钠这一对化学元素的预测结果如下图所示,其中,横轴代表钠所占元素数量的比例,纵轴代表预测出的形成能,绿色垂直虚线标记着钠的占比的期望值,也就是 50%。



从上图可以看出:


  • 当钠的占比接近 50%时,ElemNet 模型预测出的形成能基本处于全局的谷底,并且为负值;

  • 期望的钠的 50%占比(绿色垂直虚线)基本上对应着预测的形成能的谷底。


以上两点表明 ElemNet 模型在预测氟和钠所形成的稳定化合物的构成时比较准确。


下图表示的是 ElemNet 模型针对钠和氧这一对化学元素的预测结果[4]:



从上图可以看出:


  • 当钠的占比为 55%至 60%时,预测出的形成能处于全局的谷底,并且为负值;

  • 期望的钠的 67%占比(绿色垂直虚线)与预测的形成能的谷底存在一定的偏差;

  • 在期望的钠的 67%占比处,预测出的形成能为负值。


在 ElemNet 模型针对二元化合物的预测中,存在一些偏差较大的情形。以下两个表格是 XElemNet 分析框架的作者们总结的、ElemNet 模型针对元素周期表中第 1 至第 3 族元素与第 5 至第 7 族元素两两所形成的二元化合物的预测。其中,第 1 个表格中的数字是根据 ElemNet 模型预测的形成能所得出的、对第 1 至第 3 族元素占二元化合物中元素数量比例的预测。



第 2 个表格中的数字,是第 1 个表格中的预测数值与根据化学理论得出的数值之间的偏差,其中,偏差较小的情形以绿色标出,偏差较大的情形以红色标出。



对于偏差较大的情形,XElemNet 分析框架的作者们指出了以下两方面可能的原因:


  • 在 ElemNet 模型的训练数据中,一些化学元素的组合出现得不多,例如元素周期表中第 3 族元素和第 5 族元素的组合,在训练数据中仅有 50 多条数据;

  • ElemNet 模型使用的训练数据未结合新的科研成果进行更新。


以上对于形成能的凸包的分析,可以用来发现 ElemNet 模型预测准确和欠准确的情形,也可以用来发现 ElemNet 模型训练数据方面的欠缺,以及用来研究化合物中化学元素的构成对于化合物稳定性的影响。

对于预测中最稳定化合物和最不稳定化合物的分析

在 86 种化学元素的所有两两组合中,ElemNet 模型预测的最稳定的化合物真的对应于一种很稳定的化合物吗?ElemNet 模型预测的最不稳定的化合物在实际中又是什么呢?


在 86 种化学元素的所有两两组合中,钬(Ho)和氟(F)按照 0.25 : 0.75 的数量比例所形成的化合物,在 ElemNet 模型的预测中具有最负的负形成能。在实际中,氟化钬(HoF3)满足上述的元素数量比例。钬是一种镧系金属元素,也是一种稀土元素。HoF3 所属的镧系三氟化物,一般具有难溶于水、抗热、抗光的特性。氟化钬的沸点是 1143 摄氏度,确实是一种很稳定的化合物。


在 86 种化学元素的所有两两组合中,碳(C)和溴(Br)按照 0.65 : 0.35 的数量比例所形成的化合物,在 ElemNet 模型的预测中具有最正的正形成能。这样的元素构成接近于 C2Br 的元素构成。两个碳原子和一个溴原子的结合不符合化学中常见的键合模式,这样的结合可能会产生不利的电子构型,因此与预测出的较大的、正的形成能一样,都指出了有关化合物的不稳定性。


ElemNet 模型预测的三种化学元素的最稳定组合和最不稳定组合,也可以用来检验 ElemNet 模型的可靠性。


在 86 种化学元素中选择三种化学元素进行组合,共有 C(86, 3) = 102340 种组合的可能;由于组合的数量庞大,因此 XElemNet 分析框架的作者们去除了一些不常见的组合。ElemNet 模型预测的结果如下。


在 ElemNet 模型预测的所有三元化合物中,氟(F)、钡(Ba)和镥(Lu)按照 0.727273 : 0.090909 : 0.181818 的数量比例所形成的化合物具有最负的负形成能。根据这一预测,BaLu2F8 可能是非常稳定的化合物。这一预测符合有关的化学理论,也符合实际中类似的氟化物所体现出的稳定性。


在 ElemNet 模型预测的所有三元化合物中,铬(Cr)、铯(Cs)和钨(W)按照 0.2 : 0.4 : 0.4 的数量比例所形成的化合物具有最正的正形成能。这样的元素构成接近于 CrCs2W2 的元素构成。这三种化学元素在电负性和原子大小等方面差异较大,可能形成的化合物在电子结构等方面不会稳定,因此在理论上,这三种化学元素形成稳定的化合物不太可能,从而再次验证了 ElemNet 模型在材料科学领域中鉴别不稳定化合物的能力。

透明性解释

可解释 AI 还可以用于增强 AI 模型的透明性。增强 AI 模型透明性的方法较多;其中一些方法通过训练比较易于理解的机器学习模型(例如线性回归、KNN、决策树等)来模拟 AI 模型的推理,通过理解这些训练后的、比较易于理解的机器学习模型,来理解 AI 模型的运行机制。


XElemNet 分析框架中就采用了上述的思路,用决策树来模拟 ElemNet 模型的预测。如上文所述,ElemNet 模型可以针对 86 种化学元素的两两组合、以及两种化学元素之间的不同比例,预测出形成能数值。ElemNet 模型的这些输入和输出数据可以作为决策树的训练数据;其中,每种化学元素的占比可以作为决策树分支的判断条件。


这样训练决策树之后,每种化学元素对于预测结果(也就是形成能)的影响程度,可以由决策树的特征重要性(feature importance)的值来得到体现,从而可以反映出 ElemNet 模型所学到的、每种化学元素对于二元化合物的形成能的影响程度。



上图显示的是按照决策树中的特征重要性排序时,排序靠前的部分化学元素及其特征重要性数值。排序靠前的氟(F)、氧(O)和氯(Cl)电负性高,化学性质活泼,碳(C)和氮(N)具有很强的键合能力;这些化学元素在理论上都可以显著影响化合物的形成能。特征重要性的计算结果与这些理论知识基本一致。

总结和展望

基于可解释 AI 的方法,XElemNet 分析框架的多项分析验证了 ElemNet 模型在大多数情况下,能够生成接近于理论和实际知识的预测。XElemNet 分析框架同时也发现了 ElemNet 模型预测准确和欠准确的情形,以及 ElemNet 模型训练数据方面的欠缺。


XElemNet 分析框架的作者们对于未来工作的计划包括:


  • 增加对三元化合物和四元化合物的分析;

  • 探索将可解释 AI 中的更多方法应用于 ElemNet 模型的分析;

  • 针对此次结果中排序不在最前面的其它化学元素,在特性、应用、新材料的发现等方面开展进一步的研究;

  • 将可解释 AI 的方法用于 ElemNet 模型之外的、材料科学领域中的其它深度学习模型的分析。

参考文献

[1] Cross-property deep transfer learning framework for enhanced predictive analytics on small materials data. https://www.nature.com/articles/s41467-021-26921-5


[2] XElemNet: towards explainable AI for deep neural networks in materials science. https://www.nature.com/articles/s41598-024-76535-2


论文许可协议:CC BY. https://creativecommons.org/licenses/by/4.0/


[3] Explainable Artificial Intelligence (XAI): What we know and what is left to attain Trustworthy Artificial Intelligence. https://www.researchgate.net/publication/370111593_Explainable_Artificial_Intelligence_XAI_What_we_know_and_what_is_left_to_attain_Trustworthy_Artificial_Intelligence


[4] Supplementary Information: XElemNet: Towards Explainable AI for Deep Neural Networks in Materials Science. https://static-content.springer.com/esm/art%3A10.1038%2Fs41598-024-76535-2/MediaObjects/41598_2024_76535_MOESM1_ESM.pdf


封面图:Cottonbro Studio、Pexels


发布于: 刚刚阅读数: 4
用户头像

算AI

关注

算法工程师 2022-02-03 加入

算法及AI应用的分析与评论

评论

发布
暂无评论
深度学习+可解释AI:材料科学新视角_深度学习_算AI_InfoQ写作社区