AI4Science 之分子材料成像调研洞察
data:image/s3,"s3://crabby-images/8a113/8a1139af869bd4f3b932b171054ff50c1491bde6" alt="AI4Science之分子材料成像调研洞察"
分子成像在材料科学中具有重要的意义。以位形空间成像为例,通过观察材料内部分子的分布和相互作用,可以辅助科研人员揭示材料微观结构和组成,研究材料的表界面性质,探索材料的动态变化和相变过程,评估功能材料的性能,指导新材料的设计和优化。分子成像技术与大数据和 AI 的结合可以更深入地理解材料的本质特性,为解决能源、环境等领域的关键问题提供新的思路和解决方案。
相比传统的深度学习任务,分子材料成像任务庞大繁杂,且数据结构、种类跨度极大,与 AI 的结合仍处于初期阶段,尚无业界认可的"包罗万象"的数据集,新提出的模型方法也没有公认的可以刷点对标的"benchmark",更没有 "大一统" 的 AI 模型,但考虑到分子材料成像领域的重要程度,或许在不久的将来,会有大量研究机构布局,科研人员扎堆,将“AI+分子材料成像”领域从做成类似于当下【AI+分子生成】、【AI+分子属性预测】的"红海"。
本篇文章从成像方法(位形空间、频率空间、光谱学),任务类型(1D/2D 分类、2D/3D 重建、分割识别、模拟生成等),机器学习模型(CNN、VAE、GP、Transformer 等),数据集与 Benchmark,python 工具包,通用模型(Segment Anything Model)等多个维度和角度对分子材料成像领域进行了调研。
1. 从成像方法出发,从位形空间、频率空间、光谱学三个角度展开调研。其中,位形空间成像包括光学显微镜、电子显微镜、扫描探针显微镜;频率空间成像包括 X 射线衍射、电子衍射、中子衍射。
位形空间成像
光学显微镜
包括二维纳米结构光学识别,形貌图象的模拟实验数据生成,基于光学显微镜的晶体取向绘制等
电子显微镜
包括晶界原子坐标识别,原子缺陷的聚类分析,应力分布的预测,基于局部坐标信息的化学演变探索等
扫描探针显微镜
包括化学短程有序(CSRO)的定量三维成像,探索相变和构建相图,手性模式的识别,位点定位等
频率空间成像
X 射线衍射
包括衍射图片分类,相分析,相变分析,晶体结构分析,缺陷及应力分析,单晶信号分离,衍射重建等
电子衍射
包括图像去噪、筛选、分割,电镜的自动化位点选取、参数设置等
中子衍射
利用经过物体的单像素信号和参考光场间的相干性的图像解析
光谱学
原子发射光谱(OES/AES)、原子吸收光谱(AAS)、X 射线荧光光谱(XRF)、X 射线能量色散谱法(EDX)、俄歇电子能谱法(AES)、X 射线光电子能谱法(XPS)、拉曼光谱、核磁共振谱等
包括核磁共振谱的峰值定位、理论和实验匹配,基于拉曼谱成像的空间分割,拉曼光谱去噪及特征提取等
2. 从任务类型出发,将调研的研究论文中使用的方法划分如下:1D/2D 分类,回归,聚类,定位,分割,检测,去噪,数据筛选,超分,模拟生成,2D/3D 重建
3. 从模型角度出发,识别阐述了上述分类中常用的机器学习模型,并列举了经典/SOTA 的论文应用。以电子显微镜 STEM(Scanning Transmission Electron Microscopy)为例:
卷积神经网络 CNN:
Identify atom column positions
Cluster atom positions and characteristic of defects
Denoise (e.g., Noise2Atom)
高斯过程 Gaussian Process:
Predict strain distribution by reconstructing the atomic positions more accurately
变分自编码器 Auto Encoders:
Image reconstruction
Exploration of the chemical evolution based on local structural changes (e.g., rVAE)
Learn relationships between structure in an image and property in spectral data (e.g., im2spec)
生成对抗网络 GAN:
Create realistic STEM image with small data difference between experiments (e.g., CycleGAN)
k 均值聚类算法 K-means:
Reveal unexpected deformations across a large sample area
4. 从数据集与 Benchmark 角度,本篇文章搜集了如下业界常用的:
电子显微镜降噪:EM_Denoise
5GB 的仿真数据集,由 256x256 像素的图片构成
电子显微镜分割:EM-stellar
通用图像分割识别:MicroNet,MicroLite
数据集介绍:
MicroNet 包含 54 种材料的 110861 张显微镜图像,每张图像的分辨率为 1048×741 像素。图片来自光学显微镜,扫描电镜,穿透式电镜。数据集包含不同种类的材料,如 metals, polymers, ceramics, composites
Benchmark 模型:
分类模型,包括基于 CNN 的模型,如 VGG (with and without batch normalization), DenseNet, dual path networks (dpn), EfficientNet, ResNet, Inception-V4, Inception-Resnet-V2, Xception, MobileNet-V2, ResNeXt, and SE-Net;以及基于 Transformer 的模型,如 CNN 与 SwinTransforer 的结合(如下图)
分割模型,包括 Unet, Unet++, Linknet, FPN, PSPNet, PAN, and DeepLabV3+
data:image/s3,"s3://crabby-images/6c2bb/6c2bb69f7d3e9a0eb64289275d4ce487aa267b76" alt=""
5. 从 python 工具包角度,本篇报告整理了业界广泛使用的,针对不同数据类型又很多 plugins 的工具包:
HyperSpy
Atomap:针对 atomic resolution image analysis
LumiSpy:针对 luminescence spectroscopy data analysis
pyxem:针对 4D-STEM data analysis
Python-based Pycroscopy Ecosystem
STEMTools
AtomAI library:包含 deep kernel learning, invariant representation learning
PyTEMLib library:针对基于模型的定量化分析
6. 除了针对单一领域的模型与应用,通用模型是近年来的研究热潮。分类、分割、识别模型有一定通用性,交互式分割的应用场景很广,存在基于通用图像分割大模型 SAM (Segment Anything Model) 的研究。不需要为任务、数据集进行专门的训练、微调,可直接用预训练模型和 prompt 完成分割。下图为 SAM 在四种材料显微图像数据集上的零样本分割表现。第二行为 SAM 输出的不同分割区域的掩码结果,第三行为经过连通域处理后得到的二值掩码图。该结果表明通用领域数据集获得的对目标边界的知识可以应用到材料显微组织、晶粒等图像上。
data:image/s3,"s3://crabby-images/314af/314af30b189553ab30ecae1004cc396d7d06dce7" alt=""
值得讨论的问题:
如何在分子材料成像领域有效的利用多模态、跨度大、结构种类多的数据?
构建业界广泛认可的大规模数据集和 Benchmark 测试存在哪些技术难点?
通用图像分割识别模型在分子材料成像领域的应用潜力?
去噪的任务跟实验设备相关性较强,建立通用模型是否不可行?
参考论文:
UHRED Unsupervised hyperspectral stimulated Raman microscopy image enhancement: denoising and segmentation via one-shot deep learning
SEDCNN A machine learning model for textured X-ray scattering and diffraction image denoising
CystalMELA a new crystallographic machine learning platform for crystal system determination
CNN-SPI Evaluation of the performance of classification algorithms for XFEL single-particle imaging data
MLP-SFX Data reduction for X-ray serial crystallography using machine learning
Artifact Identification Artifact Identication in X-ray Diraction Data using Machine Learning Methods
NMR peak shift DP4-AI automated NMR data analysis: straight from spectrometer to structure
2DCCNN Complex imaging of phase domains by deep neural networks
3DCCNN Three-dimensional coherent X-ray diffraction imaging via deep convolutional neural networks
ECDFormer Deep peak property learning for efficient chiral molecules ECD spectra prediction
EM_Denoise Deep denoising for scientific discovery: A case study in electron microscopy
MicroNet Microstructure segmentation with deep learning encoders pre-trained on a large microscopy dataset
MicroLite Transfer learning for microstructure segmentation with CS-UNet: A hybrid algorithm with transformer and CNN encoders
Autonomous scanning Autonomous scanning probe microscopy investigations over WS2 and Au{111}
AtomSegNet TEMImageNet training library and AtomSegNet deep‑learning models for high‑precision atom segmentation, localization, denoising, and deblurring of atomic‑resolution images
APT 3D A machine-learning enhanced approach to break the inherent resolution limits of atom probe tomography enabling three-dimensional imaging of multiple CSROs (Chemical short-range order)
Data augmentation Data augmentation in microscopic images for material data mining
评论