AI+ 生物计算:用计算机视觉技术理解细胞生命
本次将由中国科学院自动化研究所模式识别国家重点实验室、百图人工智能科学顾问杨戈博士为大家分享在细胞内部,用计算机视觉技术理解细胞生命。
本文主要覆盖五部分内容:
背景介绍
案例研究:细胞如何降解回收垃圾?
其他应用示例
使用生物图像研究深度神经网络特性
总结与展望
一、背景介绍
首先,问一个特别不靠谱的问题,大家多少岁了?基本上来讲 0~100 之间。为什么问这个不靠谱的问题呢?其实是想告诉大家,基本上在座的每个人,可以说 40 亿岁了。为什么这么说呢?我们人体、地球上的生命物体,是以细胞作为基本的结构功能单元的,我们都是来源于一个分裂的细胞,这个细胞的来源也是上一代分裂的细胞,所以说我们在座的每个人,一定是和这个星球上 40 多亿年前的生命体,有一个连续不断的这样一个连接,才到了我们今天。
为什么我要强调这个事情,不是想给大家讲哲学,而是想给大家讲另外一个话题--仿真。在生命科学里,仿真除了要考虑物理化学之外,还有一个非常重要的因素—自然进化。
我们细胞内部结构功能的选择,并不是完全用生物、物理和化学的原理就可以解决的,是随机的。所谓的真核细胞,就是 DNA 放在这个细胞核里头的结构就是:有一个细胞核,及各种各样的细胞器。我们人体是由多少个细胞构成的呢?370 万亿细胞。现在,比如在英国,他们用各种各样的高度自动化的技术进行全局性的描述。简单来讲,生命科学的一个基本的问题,就是要解决对这个细胞的生命过程详细的描述,理解分子机制,是从基础的生命科学角度来讲的。在这些基础上,再有基础药物科学,比如刚才其他老师讲到的,计算化学的这个基础上,怎么样实现这个药物的筛选验证。
在座的都很熟悉“深度神经网”,是对于生物神经元的一个模拟。举例来说,在人类的坐骨神经里,从脊椎的底部到脚趾头的神经元,它的一个轴突长一米多。我们用人工神经元去模拟生物神经元的计算能力。比如说,北京市的平均寿命 80 岁,那这样一个神经元必须连续不断地工作 80 年。他的生命是如何维持呢?其实是有非常多的生命过程在里面,这些过程是非常了不起的。
动物实验中,用手术方法打开果蝇的三期虫卵,用荧光的方法去标记它的神经系统。会看到它有大量的物质传输,像我们刚才讲这个坐骨神经,从脊柱的尾端到脚趾头,慢速营养物质输送,大概需要两天半的时间。
这个过程非常了不起,它必须要连续不停地工作 80 多年或者是 100 年,一点都不能出错。所以,你可以用各种各样的技术看到单个的神经元里的机制,在我们的大脑每个神经元,在每个时刻都在进行着。
比如说,下图所示的虫卵细胞图,但我们人体比这更复杂。
人体最早是从一个受精卵发展的,它是有非常复杂的进化过程,有大量的调控。我们为什么要关心这些基础的生物学呢?并不是完全出于好奇心。比如说,对于神经元的了解,它会直接导致对神经退化疾病药物的发展。对于生命的发育过程的了解,直接会关系到生殖过程、儿童疾病、发育疾病、生殖疾病。这其实是一个基本的科学技术问题。
上图是诺贝尔奖的技术,即荧光技术,大概是 90 年代后期发展起来的。简单来讲,就是一个细胞,就像一个细胞机器似的,把不同的部分染上不同的颜色,或者用不同的颜色去标记,标记出这个不同的元器件你会看到不同的颜色的部分。这样的话,你可以理解它生命的过程,但是荧光成像只是提供了一个可视化。
我们知道光是看一个图片是不够的,你要处理它的信息,要对它进行分析,所以刚才宋老师已经讲到,对于图像的分析是非常重要的,需要理解它内部复杂的信息,这里头定量分析是非常重要的,所以我们今天会讲到更多这方面的内容。
实际上,在我们制药里,分析的场景是非常海量的。一般的制药公司都是有一个化学合成领库,比如说默克和罗氏,有几千万个化学品库,里面都是各种各样的化合物。
如何管理呢?它是用机器人来管理。像图中每个单元里存着一个化学品。怎么做实验呢?在一个培养皿里头,模拟一个癌症,在几千万个化学合成品库里,找到哪个对这个癌细胞有作用,怎么找呢?把细胞放在多孔板里,再把药加进去,然后看这个药对这个细胞有没有作用,能不能把这个癌症的发生发展把它停下来,它用的是高度自动化显微镜。
这也是现在百图用的是高度自动化的生产线设备、自动化的实验过程。比如说,你在一个 well 里,看到很多细胞,有的细胞在分裂,关键要看药物能不能让这个细胞有分裂停止的影响。如果想对癌症药物有效的话,它要让这个细胞的分裂停下来,就需要对图像进行自动的处理和理解。那么它的规模是多少呢?经常你要再做几百万个或者几千万个,所以就需要高度自动化的分析技术,在这里面,计算机视觉技术会起到一个非常重要的作用。整个人工智能在制药领域里,最近几年可以说是一个爆炸式的增长。
上图是斯坦福 2021 年,关于人工智能的进展报告。大家看第 1 类,比如说,对于癌症药物的研发,2019 年在全世界范围里私企的投资额大概是 30 亿美元到了 2020 年达到 130 亿美元,在一年期间就增长了 4 倍。很多年以来,人们都觉得计算化学是应该对药物领域有贡献,但其实它的实用性还是离得比较远的,但人工智能在这个领域实际上已经有很大的影响了。
比如说这方面做得比较成功的公司 Recursion,这个公司在考虑怎么样能够把一个疾病的细胞通过加药的办法把它变成一个正常的细胞。那怎么去刻画一个正常或非正常的细胞,主要是看它的图像、形态,这个公司做得非常成功,它有一个核心技术叫 Cell Painting,荧光技术。就是一个细胞,就是一个分子机器,它有它有各种各样的元器件,它用这个不同的染色剂,染不同的元器件,总共有 6 个通道,每个染色剂有不同的波长或者不同的颜色,然后把一个分子机器的不同部件用 6 种不同的颜色染出来,然后再去分析它。对 Recursion 公司来讲,这样一种药物开发的模式非常的有效。像 MIT 和哈佛的 Broad Institute,在生物信息学或者计算生物学领域里,是世界顶级的。他们现在成立一个联盟,由 Anne Carpenter 牵头和大概几十家药企一起做的做一个很大的图像库。拿不同的细胞,不同的癌症,如:肺癌、肝癌、胃癌等,用那种染色的方法,得到图像库。在这个基础上,它有大量的药物,哪个药物能把它拉成正常的。这个库是很大的,比如像 Recursion,它的库是什么级别的呢?它是几个 PB 级,几千个 TB 级的一个数据库,具备非常多的处理的功能。
现在 Recursion 的 AI 技术,不再是探索性的前沿技术,大概几周之前,Recursion 和罗氏签了一个研究合同,主要是做两方面,一个是肿瘤,另一个是做神经退化疾病。
但是大家知道,神经退化疾病是很难研发药物的,他们是用所谓的图形模型与图像模型去做药物研发。大家知道罗氏公司是经典的药物研发企业,现在他们也认可这种模式,所以这种 AI 的模式已经真正在改变领域,不是说像几年前处于概念性阶段
最后,我们回到计算机视觉技术。视觉技术它能干什么?举例来说,一个深度神经网络,它可以对图像进行分类。(见下图)
这个图像 60%的概率是羊的图像,30%的概率是狗的图像。此外我们还可以对目标进行检测,比如自动驾驶与人脸识别,自动商场的商品推荐,或者自动计费都具备这个应用。
目标识别也可以做分割,把狗羊分割出来,把同类的羊不同的个体用颜色标出来。这些技术,实际上都是经典的计算机视觉技术,在生命科学里,在这个制药里,都会有非常好的应用。
我想强调的是,我们要处理的图像是一类所显微图像,这类图像和自然图像非常不同,比如说在自动驾驶或者一些其他领域的模型用到这个生物里是可以的。但是,通常情况下需要对这些模型进行一定的定制,因为这个图像它的属性是不一样的。
二.案例研究:细胞如何降解回收垃圾?
给大家深入讲一个例子,细胞怎么回收垃圾的。垃圾回收是非常重要的,这个当然不是个很有魅力的工作,但是很重要,细胞离开它活不了的,那么这细胞它是怎么做的呢?
简单来讲,垃圾回收这部分,是一个溶酶体的细胞器来做的,这个细胞器是一个封闭体,它有一种膜大家可以想象成一个一个工作单元,就是一个一个模块。那在细胞里面,它的运作又牵扯了两个细胞器,一个叫内吞体,一个叫溶酶体。
大家就把它想象成垃圾转运车,溶酶体里有很多很强的酸,对垃圾进行降解,降解完后有些材料可以复用。从这个内吞体收集了以后,内吞体和溶酶体要进行一个融合,把这个收集的垃圾递送到溶酶体里,溶酶体里头有强酸,把它降解完了以后然后再分开,这样就完成了一个过程。如果你要用荧光标记的话,红色的标记是内吞体,也就是像垃圾车,绿色的是垃圾处理站,你看细胞里在不断的运动。这个运动是没有什么模式的,这个垃圾车,一定要见到这个垃圾站,垃圾车要到垃圾站,然后两个融合后,材料递进来以后然后进行分解。
基本的生命科学的问题就是说这个红的怎么样见到这个绿色,这个怎么见面。我们现在先不去操心红色,我们先看这个绿色。这个规律是没法看的,所以必须要用定量的方法去分析,它内在的规律是什么。
那么,我们怎么分析它?就用计算机视觉技术。首先,对它进行检测,每一个点都是一个所谓的溶酶体,我们要把它进行定位,这里就要用计算机视觉技术特征检测的技术定位完以后,用运动跟踪的技术,跟踪下来你可以得到它的轨迹和运动的规律,这个也是我们经典的技术。
我给大家讲个例子,空间统计分析。我要理解它的空间的模式,它的特征规律,它的内在的模式,就是这些溶酶体,这些垃圾处理站他们在空间运动,中间他们有什么规律。简单来讲,计算它的空间密度,在单位面积里它有多少个。计算空间密度,结果一算以后会发现什么呢?密度越红越亮的颜色它的密度越多,其他地方密度低一点。在这个细胞里,它们的密度并不是均匀的,它是有在特定的区域,它不是固定的。这个垃圾转运车也是一样的,如果细胞它在某一个特定的地区,他还想增加他的垃圾处理能力,怎么办呢?就让这个局部的区域里垃圾处理车和垃圾转运的这部分,同时它的密度增加。
我们现在来做一个物理试验,假设我让大家做一件很奇怪的事情,比如想象两组人,一组人穿的是红衣服,一组穿绿衣服,如果想让他们增加见面的机会,没有任何规律让他们随机地走,那么他们见面的机会是不太有规律的。
但如果你要想让他们增加见面的机会,怎么办呢?告诉他们,往某个地方聚集,这样看到局部的空间密度就上去了,见面的机会是不是就多了。
无论是通过一系列复杂的实验,还是全面的实验,我们证实了一件事,在空间来讲,细胞内部对于这两个互相的作为细胞器,它的很重要的调节是局部的短暂的提高它的空间密度,然后让它增加交互作用。如果这个地方不再需求这个事情了,他就会消散掉,就会跑到下一个区域,这是一个很简单的一个控制规律。
它的运动实际上是在一个非常复杂的网络上运动的,这个网络叫内置网,就是用绿颜色网络标记的,红的就是溶酶体。
我们回到刚才假设想象性的实验,咱们的观众,一个穿上红衣服,一个穿上绿衣服,再让你们随机走,我在地上划上线,要求你们必须按照我划的线随机走,可以想象,划上线以后它比完全无规律随机时见面的机会高很多。我可以通过控制网络,让你们在某一个地方见面。
我们要做深度学习网的话,就要做一个图像分析,图像分割完以后,如果分割网络做得好,就可以得到很好的分割结果。
我们制药领域要回归到特别药物的设计,比如像刚才溶酶体,有一类叫做溶酶体疾病这种物质,这种物质降解和重新循环的这种疾病,大概有 50 多类,很多的是在小孩儿发育类的疾病,所以,这不仅仅是作为一个兴趣或者科学性质,不只是一个好奇心,最后都会落到药物筛选的应用场景里头去。
比如我们讲深度学习分析的内质网,对它进行分类以后,就可以提取它的骨架,把它变成一个数学上的一个图的概念,然后用各种各样的数学工具去理解它们。它的连接方式和内在的模式是什么,这里面有很多的计算机视觉,或者数学图图论的工具。
我刚才讲了一个很具体的例子,大家可以看到,我们怎么样用这种视觉技术进行分割与跟踪等,在这个现象的基础上,我们可以进一步做各种各样的药物筛选。
那怎么样减少标注数据,比如说用生成对抗网络来合成数据。我给你一个像这个手包的这样一个 sketch,它可以复原一个图像。如何用呢?比如说一个白天的图像,一个晚上的图像,如果我想白天变晚上或者晚上变白天,实际上要做的事情是对这个区域白天拍一张图,晚上拍一张图,必须要对应同一个区域。
你也可以用循环卷积网,比如你一类的图像,用数字相机拍出来图像;第二类图像,比如用画家他们的印象,把它变成莫奈、梵高、塞尚或者其他的画风。
现在整个深度对抗网,比如合成人脸做的非常逼真了,实际上同样的技术可以合成。比如说在细胞内的线粒体,最左边这一列的是一个真实的,如果它有一个模板的话,可以把它的几何体系提取出来,然后你用生成对抗网填入这个型号,实际上这个最右边的这个倒数第 2 列和倒数第 1 列都是计算机合成的。用这种合成的方法,我们可以证明,不像在形态上或外观上比较像,而且你如果拿它训练,手动分割真实的图像,训练神经网络以后得到的分割。用合成的数据训练以后可以用真实的手标数据训练,以后得到的结果基本上是一致的。
这些实验合成的数据,整个技术控制得比较好,我们可以用深层对抗网合成的数据部分取代这种首标数据,深入学习里,我们可以很容易地做各种各样的图像预处理。
在显微图像里也可以做这个事情,假设用一个低端的显微镜,你可以得到这样一个图像,通过计算的方法对它进行一个清晰化处理,得到一个高清的走向。
这里需要强调的是,像这样的一些技术不再是写论文的阶段,也不再是做 PPT 的阶段,它已经走到商用化了,像德国的莱卡公司已经实用化了。所以坦率地讲,我们国家这方面落后得很远,这个也是很遗憾的一件事情,我也希望,我们能够有机会改变。
三、其他应用示例
我知道有同学感兴趣医学影像的,我们这边也做了一些医学影像的研究。我们现在做的是辅助生殖,用深度学习技术来看人类的精子。这个精子,它有一个精子头,它的尾部是一个自由运动的,但是它这个头是在不断翻转的,我们通过深度学习的方法做微观检测,可以很容易把这个头定义出来,定义完了一个头,然后再做分割,做完分割以后你可以看到它,它的形态是什么样,这个红点叫做空泡,它里头有一个空的区域,这个区域它跟 DNA 的损伤有关系,所以做辅助生殖临床的医生如果看到这个空泡,尤其是空泡靠前端的话,这个精子就不要用了,因为如果下一步做人工受精的话,它就会出问题。
做辅助生殖要先把病人的精子放在培养皿里,然后让人工智能自动筛选,根据精子的形态、运动活力等,从中间挑选最好的,然后抓取他,我们可以用这个真空的办法,也可以用红外非常柔和的激光,把它抓起来以后,放在下一步,然后这个精子经过精选以后,你再做注射,做下一步的人工授精,这个都是我们现在技术可以做得到的。
四、使用生物图像研究深度神经网络特性
从生物制药这方面来讲,我们不只是一个人工智能技术的消费者,实际上对人工智能技术是可以有所贡献的,有很多前沿性的问题,像在训练数据中间有很多标签,比如眼底的医学图像,如果要是做标注,很多情况下写医生和作者标注的时候,可能有些地方的信号会漏掉,这个是非常常见的一种情况。
我们现在发现在生物图像里,经常很多区域,很模糊的时候,如果是手标数据,就不知道如何标了,这时候有些你会忽略掉,在标注数据有噪声的情况下,会出现什么情况呢?
如果拿手机去拍我们这个环境,得到的图像很少,有区域它是纯噪声的,所以生物图像非常简单,它可以让我们用很简单的数据理解到一些深度学习网一些非常本质的特性,你可以随机抽 70%的像素,或者你最后随机抽 10%的像素。
给一个深度神经网做分割的话,它的效果是一样的。实际上,深度学习网它并不是在看像素,而是看内部的结构。或者是另外一种方式,这是我原来的标注数据,我这个标志数据你看前头亮的是 1,后的背景看的是 0,对吧?我如果对它进行随机的分配,比如说我随机翻转我的最大限度,这个 49%的随机翻转得到这样的图像。
然后这样一个图像,你再去训练神经网络的话,得到训练结果仍然是一样的,说明什么呢?说明我们这个深度神经网学习的是噪声标签的结构,内部我们管它叫做原结构。
我们在药物领域,是可以对 AI 有很多的贡献的,这也是我们可以做的事情。
五、总结与展望
首先,细胞生命过程具有复杂的时空行为,计算机视觉技术在理解细胞生命中发挥了关键作用。
其次,生物图像有其自身的特点,需要根据这些特点发展相应的深度学习技术。
再次,因为其相对简单的结构,生物图像可以在理解深度神经网络的基本属性方面发挥重要作用。
最后,深度学习技术在生物图像计算机视觉处理领域有较好应用前景,但真正落地需要与应用深度融合。
整个生命过程是非常复杂的时空行为,在理解这个时空行为里,计算机视觉起了非常关键的作用,它可以实现图像的自动处理,另外一个生物图像,他是有自身的特点的,这时候,要根据这些特点,我们发展特定的计算机视觉和深度学习技术。
评论