和鲸 × 于峻川丨以遥感领域为例,浅谈 AI for Science 科研范式改革
2023 年 3 月,科技部会同自然科学基金委启动了 AI for Science 的专项部署工作。数据驱动的科学研究长期以来面临着诸多困境,针对传统科研工作流中过度依赖人类专家经验与体力的局限性,AI for Science 旨在基于科学数据与算力支撑,通过人工智能的方法,进行计算密集、高效迭代的科学探索,为科研工作带来新的突破。
随着 AI for Science 新范式的引入,现有的科研工作流与基础设施会发生怎样的变化?AI 算法在特定专业领域的适用性如何、何种类型的算法在当下更受关注?学科知识 + AI 操作技能,对于复合型人才的培养,目前又是怎样的情况?
和鲸科技特邀来自中国自然资源航空物探遥感中心,遥感应用技术研究所的于峻川老师,以第一人称的视角与大家分享遥感领域科研工作的 AI 应用现状。
01 科研工作流与基础设施的更新迭代
科研工作流和基础设施的更新迭代会比较显著。我们以前处理遥感数据是利用 ENVI-IDL 通过编程来处理,但它其实对计算资源的利用率并不是很高,后面我们的分析方法有了 GPU 之后就有所改善了,可以提高它的效率,但也是遇到了一些问题。
我们开始用的是单机单卡和单机多卡,很快就满了就没法用了,就又采用了集群的方式,但是集群又带来了新的问题。我们的需求是希望每个人都能够有自己的实践环境,但针对一些比较大的问题又能把所有的计算资源利用起来解决这个问题,所以我们就需要有一个平台来帮我们把存储和计算资源给整合起来。
另外我们现在的数据分析基本上都是用 python 在做,那么原来的那套工作流就可能涉及到迁移的问题,如果都迁移到 python 平台肯定是可以跟深度学习更好地融合,但是这就提出了一个新的要求,就是怎么去做模型的管理、数据的管理、任务的管理。
另一个方面是,我们研究的过程会做很多实验,这里面涉及到了不同数据的组合、模型的组合,还有调参。在实际应用中,我们觉得有一个点非常麻烦,就是我需要一直盯着它看,这个实验跑完了之后再跑下一个,就需要有人盯着,另外实验结果怎么样也还是得去查看,所以实验多了之后这个过程就显得非常繁琐。
我们理想的状态是我先把数据、模型、参数在前面先定好,然后通过一个平台来执行离线的任务,每执行完一个之后可以邮件通知我这个任务已经算完了,并结果也附上去,当所有实验都跑完了之后,再发一个对比的报告给我,这样就会轻松很多。
所以说我们面临的主要问题,其实一个是计算的压力,虽然算力现在是满足了,但是怎么能把资源更好地整合起来,是这个压力;另外一个呢就是随着新技术的到来,我们整个工作流可能是有变化的,如何去搭建工作流,这是一个问题。
我也尝试了很多云计算平台,综合下来我发现咱们和鲸的 ModelWhale 在这里面确实是比较优秀的,基本上能够解决我上面提到的大部分的问题,包括在线的 VScode 功能,还有和鲸社区,环境都非常不错,所以也是希望更多这个从事遥感的研究者能够把咱们这个平台给用起来吧。
02 AI 算法在遥感领域的使用现状
关于这个,实际上现在 CV 里面用到的算法在遥感领域基本上也都用得到,包括遥感里面的目标检测、语义分割、变化检测,还有异常检测,基本上都会涉及到,就像我前面说的,它已经深入到了遥感的各个方面。但是对于那些跟 CV 里面的自然图像更相近案例,效果会更好一点,比如说人脸识别、舰船识别,它们都符合一个特点,就是目标判断的规则是非常明确的,训练样本也比较多,变化不会特别大。只要符合这个特点,我们就认为它做出来的效果应该是比较不错的。
但是我们前面也提到了,遥感它有自己的特点,所以在 CV 领域里面迭代出来的模型,包括得到的一些结论,有些在遥感里就不一定正确,这是需要注意的。另外遥感毕竟是一门技术,最后是要应用的,那么在应用场景里可能就需要额外地去想更多解决方案,比如说道路提取中的联通性的问题、变化检测中的建筑物遮挡的问题,都需要思考更多方案来解决。
现在有很多研究是直接把 CV 领域里原有的一些模型方法迁移过来,当然这也是一个必经的阶段,但是我觉得往后可能有更多关于融合遥感的研究可以开展。
一方面遥感在应用领域的标签其实不是特别好获取,刚才提到的那个云检测是一个特例,有些比较专业的场景,本身那个标签数据获取就比较困难,因此它是一个小样本的问题。那在解决这种小样本问题的时候,所用到的骨干网络如果太重的话,可能就会导致过拟合,所以就需要多去调试、多去想一些轻量化的网络来设计。
其次,我们知道 CV 领域很多都是采用模型初始化的方法,用 ImageNet 做初始化,但是遥感的波段多,波段数也不一致,就可能用不了。我在想我们能不能做一个遥感领域的 ImageNet,如果有这个的话可能对后边的研究有很大帮助,因为目前的状态大家都是不同领域自己弄自己的,缺乏一个统一的、大的数据集。
另外,CV 里面常用的数据增强的方法其实对于遥感数据来说很多都是没有太好效果的。遥感数据里面的变化是由什么引起的呢?一方面是时间,时相不同,辐射的条件产生了变化会造成影响;另一方面是空间,比如同样一个目标,现在的背景是草地,回头也可能换成是林地或者野外的场景。能不能通过这些角度去设计一些新的数据增强的方法,也是一个值得研究的问题。
其他还包括现有 CV 模型里,因为它通常的数据只有三个波段,所以对于遥感多光谱高光谱信息里面光谱的连续性也没有考虑到;还有多源的遥感数据如何用深度学习进行数据的融合;还有最重要的一点,现有的这人工智能的技术,怎么与传统的方法、一些物理模型相结合,这是未来非常值得发展的点。
总体来看,随着人工智能在行业里应用得逐渐深入,它面临的问题实际上是越来越复杂的,肯定不是像我们最开始做的水的提取、舰船的识别这种。很多时候给我们提出来的问题是宽泛的、是模糊的,我觉得更重要的是对场景的理解,要去聚焦到你要识别的目标,然后采用的方法也要从目标和场景的特点去出发,我认为更重要的是这样的一个过程。
03 遥感 + AI,对于复合型人才的培养,于老师说…
实际上,表面看我们搞人工智能的,好像只要你给我提供行业的数据我就能去解决问题,但其实深入之后并不是这样的。
为什么要复合型的人才?他要了解行业里的核心需求是什么、传统的工作链路是怎样的,然后才能知道里面哪些步骤是可以用人工智能优化的。另外,采用的优化方法是否可行,这也很复杂。目前我们的复合型人才,其实绝大多数都还是在实践中培养起来的。
不过我发现近些年的研究生,好像都能够比较主动地去学习这方面的知识了,比如说 python 语言等等,这是非常好的一面。像我前些年招的学生,一般我都是从编程开始教,还有遥感的知识、人工智能的知识,这个过程就有点太长了。后面我想了一个办法,在 github 上开了一个课程,然后根据项目的需求设置一些内容,包括布置一些简单的任务,那么学生只要把这个课程学完,基本上就能把模型、遥感的整个流程熟悉一遍了。在他学完之后,再让他根据自己的认识去丰富这个项目,这样来形成一个良性的循环。
04 结束语
感谢于峻川老师有关 AI for Science 引入遥感领域的分享,点击《人工智能在遥感领域的应用,正处在一个磨合期丨对话数智 x 于峻川》阅读访谈完整版。
在技术革命与顶层政策的引领下,科研界正给予人工智能越来越多的关注。和鲸科技旗下的 ModelWhale 科研版聚焦数据驱动研究的协同创新,是以推动 AI for Science 科研范式改革为己任的数字化基础设施:关注从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造协作协同的良好科研生态;基于 FAIR 原则与开放科研理念为数据等研究生产资料提供安全、完善的公开共享门户与在线交互工作台;强大的算力调度管理使个人电脑调用 LLM 大语言模型成为可能,也使算力资源能在组织团队内发挥最大可用性;引入 ModelOps 理念,助力大模型的全生命周期管理。
ModelWhale 科研版覆盖地球科学、生物医学、人文社科等专业领域,且已将最佳实践落实于国家气象信息中心、中国自然资源航空物探遥感中心等国家级科研机构,希望能为每一位从事数据创新研究的开拓者及其团队提供支持。任何相关需求,都欢迎您访问官网 ModelWhale.com 或点击【联系产品顾问(移动端跳转)】与我们展开交流。
版权声明: 本文为 InfoQ 作者【ModelWhale】的原创文章。
原文链接:【http://xie.infoq.cn/article/f269b2f8b790024fc995c1a36】。未经作者许可,禁止转载。
评论