写点什么

于璠访谈录 | AI 框架应该和而不同?

作者:开源雨林
  • 2023-10-30
    广东
  • 本文字数:10276 字

    阅读完需:约 34 分钟

于璠访谈录 | AI 框架应该和而不同?

点击以下链接收听本期 “大咖访谈” 播客,与大咖面对面:

大咖访谈链接:https://www.xiaoyuzhoufm.com/episodes/653f236d21aad9875428c3f2


刘天栋:访谈主持,开源雨林社区顾问、开源社联合创始人、ASF member

于璠:访谈嘉宾,昇思 MindSpore 技术总经理,AI for Science 实验室主任


职业生涯的挑战


请先简单介绍一下自己


于璠:大家好,我是华为 2012 实验室中央软件院的于璠,现在主要负责 MindSpore 的研发工作,同时也兼任 AI for Science 的 Lab 主任。


2009 年,我从中科大博士毕业后,来到了华为,刚开始做的是云计算相关的一些事情,主要是负责云计算大规模的集群调度。后来大概在 2018 年左右,软件院承接了公司对外发布的 "AI 全栈全场景策略" 当中的 MindSpore 这一个重要的软件环节,当时的我认为如果云计算是前一波浪潮,那 AI 就是新的浪潮,再加上对新鲜事物的浓烈兴趣,我可以在 AI 这里做很多事情,于是就跟领导申请加入 MindSpore。


在 MindSpore 我主要负责一些偏创新的工作,当时谷歌的 TensorFlow 是生态以及行业应用绝对的领导者。那么,我们做同一个层级的 AI 框架,如何能做到差异化?我们想了很多,也与公司的很多领导和专家沟通过,我们发现当我们与华为的硬件协同联动在一起时,会出现极致的性能,因此我们在系统上做了很多工作,当时一个创新点就是做一个高阶优化器:那时整个 AI 的训练过程是由一阶的优化算法在主导,我们在想华为的硬件这么强,这样的优化器完全无法压榨它应有的实力,如果我们将这个优化器升级成高阶优化器,那我们训练的迭代步数就会大幅度缩短,但代价是对计算能力的要求呈指数级增长,而我们的昇腾硬件是可以把这个几何指数级别的计算量消耗掉的,因此我们在这方面做了很长时间的探索,并取得了一定成果,很多模型的性能都得到大幅度提升。


那时候大模型还没有火起来,但我们已经笃定大模型是未来的一个差异化路径。在这个过程中,我们布局了 “自动并行” 这种能力。假如一个科学家要开发一个大模型,那么他需要同时扮演算法科学家和系统工程师两个角色,而这两个领域都是可以出图灵奖的领域,所以同时要兼顾这两个领域太难了。“自动并行” 就可以将 TA 解放出来,专注做算法的创新。


与此同时,我们还布局了 AI for Science 这个领域,它以 DeepMind 的 AlphaFold 为代表,由 “Transformer + 传统算法” 融合而成,在蛋白质结构预测这个领域远远领先于其他竞争者,而且成本比原来做实验要大幅度降低。我们在分析时发现,AlphaFold 2 对软件和硬件的要求非常高,而且 AlphaFold 2 里除了算法、数据有创新,系统工程上也有巨大的创新:传统的 “隐马尔可夫的搜索” 与 Transformer 架构两者融合之后,在一般的软硬件上运行性能就非常差,如果没有一个很好的系统级优化,可能运行速度会慢 10 倍以上;而且 Transformer 的代码里,有一个非常复杂的 “for 循环” 架构,想要达到好的效果可能需要几十层 “for 循环”,这对性能及整个架构的压力非常大。而 AlphaFold 2 最终版本就解决了这两个难点。


所以也借着这个机会,我们把 MindSpore 架构升级成了一个叫 “AI 融合计算” 的架构,将科学和 AI 融合在这一个架构里,同时我们也支持了国内昌平实验室的科学家们做了一版新的 “AlphaFold 2”,整体效果非常显著。


其实我们很早在技术的布局上就已经为这两个领域做了铺垫,同时也支持了国内很多科学家们对大模型的探索,我在其中做的技术创新,跟我自己的成长过程、喜好,以及能力都是有关系的。


您在华为这边有没有这样压力,例如:先跟随潮流,持续优化精进 AI 这个大模型/框架,AI for Science 要不要稍微晚一点?您是如何抗拒这种压力的?


于璠:会有业务上的优先级排序,但这个是动态变化的。目前大模型最重要,那么我们百分之八九十的精力都会投入其中,AI for Science 这边就会投入相对少量的人去布局,但也会撬动外部人员一起协同。同理,像前一段时间 AI for Science 火的时候,我们就会多一些投入,而这两者我们都兼顾的比较好。


在 AI for Science 这边,我们不仅自己做研究、系统升级,也连接了非常多的院士和长江学者,其中涉及领域不止计算机领域,还有化学、生物、材料、流体等,除此之外,我们也不断有落地的东西,例如支持昌平实验室做的蛋白质折叠。昌平实验室做生物的专家一开始并不相信昇腾硬件能发挥作用,坚持要买 CPU 和 GPU,但跟我们联合工作了一段时间后,发现想做的东西在昇腾上运行是完全没问题的,所以最终顺利成交。而这种类似案例很多,而且这个过程中我们同时也会将生态里的一些软件库、模型等孵化到 MindSpore 和昇腾上,这样以后可以再复制给其他人用,且老师们也非常愿意,从而形成良性循环。所以说,虽然公司在 AI for Science 也有投资,但我们在这过程中也不断的“沿途下蛋”,不仅能自己养活自己,还可以超额完成销售/生态的目标。


当然整体贡献中,目前大模型还是居于主导地位,但 AI for Science 和大模型两者已逐渐处于一个融合状态,现在很多做科学计算的行业伙伴已经将大模型融合进去了。我在今年 AI for Science 项目立项的时候,也重新调整了技术规划,把大模型给放到了 AI for Science 基础设施里,举个例子:


做化学材料的老师,因为看到了大模型的能力,希望做出化学材料的设计、仿真、实验这三个基础大模型。比如说我们想做一款全新的材料,它能粘合玻璃、塑料、木材等。那么我们可以把这种材料设计的信息输给大模型,大模型就会给出反馈,通过不断交互,最后可能反馈出来一个方案,例如金属 Fe,加上 O2(氧气),在某种温度和某些催化剂的配合下,生成一个新型氧化铁的物质,这个物质再经过一些操作就可以做出来一款新材料。而目前大模型非常有可能能帮忙完成这件事情,一旦它真正设计出来了一种材料,再送到仿真的模型中,或者用传统仿真软件再仿真一下,检验真实情况,没问题的话接下来就能用起来了。


这是一件激动人心的事,因为它是在底层去改造,但其中的难度也很高,它不像做 CV、LP 的,基本上跟摄像头或者搜索广告直接匹配,路径非常短,它麻烦点就在于:这么长的路径,如何将 AI 和传统算法融合起来?这是一件挺困难的事,需要很多的人和时间。


MindSpore 的开源


当时 MindSpore 的开源,在华为内部是不是也有引发一些讨论跟冲突?现在业内很多人在讨论“大模型框架要自主可控”,所以我认为很多人应该会有这方面的困惑。


于璠:MindSpore 诞生的时候,公司的战略上就已经定义了一些关键的差异化竞争力,比如把 MindSpore 定义为全场景框架——在华为所有的硬件上,像集群、服务器、板卡、手机、耳机等等,MindSpore 能快速使能。像刚上线的 MATE 60 Pro,里面有很多 AI 功能,MindSpore 的 Lite 版本就在其中。


正是因为公司有巨大的场景,MindSpore 也就慢慢练出来了。随着时间的推移及外面形式的不断变化,MindSpore 的竞争力也在不断调整。关于这点,内部讨论也是非常激烈。我一直认为在讨论技术的时候,尽量不要太和谐,这样反而能找出一个兼顾长远期和中短期的策略。例如大模型,一开始我们做了自动并行的能力,但还是有很多人提出疑问:做这个有什么用?ResNet 模型就 2,500 万的参数,开发者写一写就弄完了,而且小模型提升一点性能,从 60 分钟提升到 40 分钟这个提升比例虽然很大,但又怎么样呢?60 分钟和 40 分钟,中间学生或者老师多做一会儿,或者出去做一道题回来就 OK 了,所以意义并不是很大。但在这个过程中,我们还是坚持住了,当时我们就在想:“总归要做两个绝对差异化竞争力,有样学样是永远不可能超越的。”


您作为 MindSpore 的技术总负责人,在 MindSpore 框架开源的过程中,有没有遇到什么挑战呢?MindSpore 开源是否一开始就是公司的方向与共识,还是说有经过一番思想斗争与挣扎?


于璠:战略层面上的共识就是一定要开源,最初在给领导汇报这件事的时候,领导就问:“业界是不是所有的都开源了?”我说是的,然后他说:“那这还要汇报什么?那必然就是要开源的。”


但是在开源的过程中也发生了一些有意思的事情,比如:如何设置代码的 License?代码开源出去之后,专利会不会有侵权?代码有没有抄袭?开源后的版本如何迭代?这些我们当时在汇报的时候都考虑到了。而且 MindSpore 开源对华为的压力还是挺大,虽然战略上是必须开源,但是华为之前并没有一个自主研发如此大代码量的、且没有任何保留的开源项目,这对于我们的开发流程、人员配置等都有巨大的挑战,直至现在这个挑战依旧存在。


这里面我的感触很深,华为是做硬件起家的,所以很注重流程质量,我们设计一个东西大概需要两三个月,然后开发三个月,再测试一个多月,最后版本交付,整个流程下来至少需要三个季度甚至一年。但在 AI 开源上就不可以,因为外面变化的速度太快了,比如说我们要针对一个 Bert 模型,经过一系列流程下来,你会发现半年以后 Bert 在业界早就不流行了,变成 GPT 了,那我们做完了就又没啥用了。


还有就是来自外界的压力,开源以后会有一些人的吐槽、批评,同时也会有赞扬和支持,还有用户的反馈和建议,面对这些声音我们该如何回应?这些都是开源之前没有的。


总而言之,战略上很早就达成一致了,但在战术上和执行上仍有许多挑战,我们一直以来都在不断学习、不断进步。


AI 框架的变革


大模型时代,您觉得 AI 框架未来会有哪些变革或创新?可能因为关系到行业用户的受众,很多可能更多是使用者,所以您可以简单介绍一下 AI 框架,比如说它是一个操作系统?或者是汽车里的方向盘?


于璠:MindSpore 就是 AI 框架的一个实践,AI 框架相当于 AI 领域的操作系统,屏蔽掉底下硬件的复杂性,往上也需要做一些事情,比如抽象出来一些接口,大家做模型开发的时候,会把共性的东西给抽象出来,比如说怎么定义一个层?这个层里有 Transformer,还是有卷集?还有一些典型组合,比如说优化器推理的压缩小型化等;同时上下游还有一些东西,比如前面部分会有一些数据处理,再比如说图片的旋转上再增一些东西,会有助于提高推理和训练的精度,等等这些常用部分,当然还有一些像调试、调优工具,可视化工具,同时支持多种硬件、多种操作系统,这些都是框架里必须具备的功能,这就是 AI 框架的一个“画像”,它有一堆的关键的、能简化开发者开发流程的 API,然后有一堆可以内部并行和融合计算的加速功能,还有周边的一些工具。


以前框架之所以定义成这个样子,是因为它上面有成千上万个小模型,而大模型时代来临了以后,可能仅 10 个大模型就能实现原来成千上万个模型的所有功能,原先我们需要支持几千个模型,而现在只需要做好这几个大模型的预训练,而且大模型的使用也与以前不一样——有微调过程,也有与人类对齐的过程,还有部署过程。对于行业使用者来讲,我们做好了这套库,他们就可以直接复用,减少重复造轮子,举个例子:我们现在做的这个库叫 Mindformers ,里面内置了业界所有开源典型模型,且使用流程中的关键点也已经完成,行业用户如果想要做一个知识问答的模型,就可以拿一个我们的预训练模型,输入一些数据,再加上我们微调的算法就可以训练出来了,而且训练过程中的并行功能也已经自动部署好了,所以基本不需要感知什么就能迅速完成知识问答模型的建立。


Mindformers 是建立在 MindSpore 原来基础框架之上的,我们可以认为 Mindformers 也是我们基础框架的一部分,并且 Mindformers 与底下硬件软硬联动,会将性能做到极致。小模型下性能提升个百分之 20 至 30,客户对此可能没有什么感知,但是如果大模型提升百分之 20 至 30,那其中成本降低幅度非常大,GPT-4 这种级别的模型,训练一次至少花费 5000 万美金,如果能提升 30%,那可以节省 1500 万美金,这非常可观。


所以大模型时代对我们框架是一个好事情,当然也有新的挑战出现,但更多的是机会大于挑战,并且在这个过程中,行业伙伴也在不断地调整。举个例子,云从、电信、讯飞等企业也看到了大模型的趋势,他们想做个一体机,比如说是一个 256 卡的非常精致的一台服务器,或者一个大的超级节点,在这个节点上我们将 Mindformers 内置,再加上伙伴的数据集,以及一些可视化工具等,整体做成一个一体机,这个一体机就可以卖给客户,客户将一体机放置机房,输入数据就可以直接使用了,并且讯推一体,基本上能达到开箱即用的状态,这也因此形成了一个新的产业。


看起来“百模大战”将来并不是那么必要,大家很多时候是在重复造轮胎,其实用像 MindSpore 这样的框架,十大模型就可以覆盖主要需求,那您认为“百模大战”还有必要么?


于璠:华为目前将大模型分为了 L0、L1、L2 三个类别:L0 是基础大模型,比如 GPT-4 、GPT-3.5、华为的盘古大模型,以及谷歌秋季即将发布的 Gemini,这一类模型业界并不多,但什么都可以做,比如加一些人类对话,它可以变成一个聊天工具,再加点法律的内容,它就能变成一个律师;L1 是行业大模型,比如说法律领域、金融领域等行业大模型;L2 是细分场景模型,比如律师里是打经济官司的,还是打其他的官司的?会进行类似于这种场景的细分。


而百模大战现在大部分是处在 L1 和 L2 这两个层级,也是基于业界开源的数据集,微调出来的结果。但目前商业模式尚不明确,且竞争力不够,在我看来,客户基于华为厂商制作的一体机,用自己的数据稍微一调,立马就能调出一个比百模大战的百模好很多的模型,或者至少也是持平的一个状态,而且它完全自主可控。当然百模里也有一些很强的模型,例如唐杰老师的 ChatGLM ,但这种模型也不是很多。


所以我觉得百花齐放对行业来说是件好事,能慢慢地、真正地突围,或者明确边界,到底是 L0、L1、L2,还是有新的分类?对于华为来说,目前华为的软硬件已经能支持外界很多的模型,例如 ChatGLM、百川都可以在昇思和昇腾上运行。


随着 Llama 2 的开源,您觉得开源对 AI 框架层面将来会有哪些影响?


于璠:目前我看到的模型的开源和其他开源框架的一些走向,像 Pytorch 这个级别的,可能互相有借鉴,或者是 PK 状态,比如说我们的技术流派,Pytorch 采用的是动态图机制,但现在也在融合静态图,这种在华为称之为“友商”,属于亦友亦敌,互相学习、互相促进。


说到 Llama 2,就不得不提 OpenAI,虽然它叫 OpenAI,但一点都不 “open",目前 OpenAI 正在抢占生态,所以是赔钱的一个状态,但它肯定要慢慢变现,它很厉害的一点是:它闭源了,大家在使用时就会上传数据,然后它会持续吸收数据,最终变得越来越强。Meta 和谷歌也在思考如何争夺业界的生态,那 Meta 借鉴安卓将模型开源,但 Llama 2 一开始就在开源上做了商业化的考量,在使用的时候有商业化 license 限制,小公司使用没问题,因为那就是它的生态,而大公司使用的时候如果产生了巨大的商业价值,那他必然会追究。


Llama 2 的开源对 AI 框架的影响,在技术或 license 方面来说还好,但 Llama 2 的开源,跟 Pytorch 形成了一体(他们都是 Meta 的),Pytorch 在小模型时代取代了 TensorFlow,如果 Llama 2 在大模型时代统领开源,而且 Llama 2 原生在 Pytorch 上,强强联合,那属于其他模型的机遇又少了,MindSpore 或者 MindSpore+Mindformers 如何超越他们又是件打问号的事情。但好在框架与大模型的粘性非常少,对于框架来说,我们还是喜欢做一个“重型武器”,而不是去建一百个小模型,而且框架有绝对的门槛。


其实我们也没想清楚 Meta 在开源 Llama 2 后怎么变现?有可能像安卓一样,只要掌握住生态,随意一个方向就能商业化,比如做一个 GMS 或者 agent。


AI for Science 的现状及展望


对 AI for Science 的现状以及未来的发展,您有什么可以跟大家分享的么?


于璠:在学术界,从成果上来讲,AI for Science 有三个趋势:一是 AI 完全取代掉 AI for Science,另外一个就是互相融合的状态,还有一个是不依赖于数据,但是又出来一个新的 AI 模型,比如在科学计算里面,有麦克思韦方程、牛顿方程,这些方程我们认为就是数据的总结,因为随意输入一个 x、 y ,就能得出 z。


但是现在最好的、已落地的、能随时产生效果的还是 AI 数据驱动,比如 AlphaFold,它就有很多的数,再比如气象里有大量历史上的数据,像欧洲气象局公开的就有 9 个 PB 的数据,但是这些领域又没有一个像牛顿或者爱因斯坦这样的人出现,能将这些数总结成一个牛顿方程,这时就可以用模型来进行总结,因为 AI 非常擅长将很多的数据整合到一起,从而形成一个模型,而这两个领域我们可以看到有数据,且又没有特别的方程,那 AI 就容易着手布局,而像麦克思韦方程,科学家们都已经整合成了一个模型,AI 模型想要取代它就没那么容易了。


而在工业界,主要有两个典型,一个是谷歌,另一个是英伟达:


谷歌在硬件方面做了个新东西叫 “TPU”,类似于华为的昇腾;在框架方面它有 TensorFlow,以及新的框架 Jax,基于 Jax 上有 DeepMind 这个强大的科学家团队,创造了 AlphaFold 这个超级模型。

DeepMind 太强了,强到可以把很多科学家拉到英国,跟他们一起封闭三四年,做一些科学问题创新性研究,比如蛋白质折叠问题、水的演化问题、玻璃的演化问题(大家都知道玻璃和水,但是水是如何变成冰的过程是不清楚的)


而英伟达主要从硬件出发,一开始主力方向也是在科学计算,它希望科学上所有能计算的软件,在英伟达上运行得是最好的,所以他们常年会与老师联动来进行软硬件适配。现在 AI 成了以后,不断地融合 AI 与硬件,从下往上做。所以相对来说英伟达是一个比较零散的平台,但依托于原来生态的强大,所以使用它的人还是很多,慢慢的它也成立了一些算法团队,也希望能诞生一些超级模型,所以它联合了很多人一起发布了 FourCastNet,是一个与华为盘古 weather 同个方向的模型。


当时我们也梳理了一下我们的场景及利益诉求,定义了几层,其中一个是核心的 MindSpore 框架要升级支持神经网络,将一些科学计算、概率计算、排序的、微分的库等统一划分在其中,但不是单纯的糅合,而是互相之间可以自动并行。


另外,我们规划了 “10+1” 的库,“10” 是指通过科学家们计算规划出来的十个科学领域,原来科学领域有 8 个方程主导,但有一些方程进行演化,如果它演化出来气象,那气象就会单独列出来。“+1” 比较特别,“1” 是一个通用的库,比如说库里面的一个傅里叶神经网络模型可以布在方程里,因为那些方程很多的求解方式都离不开神经网络,也离不开傅里叶变换,它不是只针对电、磁,或者牛顿方程等,而是通用的。这个 “10+1” 也是业界首创的一个规划,其中 “+1” 的主要策略就是复现业界最强的软件。


我们也与国内很多老师联合,也包括通过人工智能学会、科技部、工信部等参与活动,但前提是基于 MindSpore 与昇腾。举个例子,我们与人大的老师联合,他做了一个新的神经网络,这个神经网络非常厉害,而且也发表在《Nature》 的子刊上了,那这个模型可以做到什么样子呢?将电或者磁以及流体统一在一个模型里面,但如果仅仅只是一个模型,很多科学家就会觉得不美观,所以它里面新增加了一个功能,可以将这个神经网络转换成一个微分方程,最终做出来的感觉非常炫。


AI 框架的机遇与挑战


企业跟模型公司对 AI 框架的选择。在数据管线阶段, AI 发展有什么新的机会么?


于璠:像华为有做数据存储的,也有做数据平台的,随着 AI 演进到大模型时代,他们会在网上积极的观察,了解客户真实的痛点,以及需要改变的地方。举几个例子:


大模型和存储的联动非常关键,因为大模型的数据量大,模型也很大,上一次华为存储一体机发布时提到:大模型在训练过程中的时间非常漫长,如果没有备份,坏一次就得重新做,所以存储计算的配合非常关键,而这一点业界大部分人都做不了,也只有谷歌、微软或者 Meta 可以。我们可以看到大概几个小时就要存一次训练过程中的 checkpoint(快照),而这个过程与 IO 存储硬件极其相关,所以通过一个存储一体机就能高可用、高可靠、高性能地将大模型训练出来。


这个是纯硬件的部分,当然后续还会有很多很多的点,可能现在我们还没有特别挖掘出来,比如说大模型未来真正部署上线时,会有离线推理以及增量、全量推理等,这对存储的硬件设备有很高的诉求。


对于数据的平台管线,以谷歌为例,TensorFlow 是它的数据管线中的一环,叫 TFX 管线(因为计算框架叫 TF,所以管线叫 TFX-TensorFlow Extended,是围绕 TensorFlow 来配合的),这个管线里有数据的存储,包括数据格式的定义,还有做数据切分、增强的库,以及数据的审计、数据的可靠性、数据安全等等。

而大模型时代来了以后,这个管线就变得不太一样了,在大模型方面,公司一直强调的是数据飞轮的状态,比如说大模型训练完上线之后,客户使用时如何保证客户数据的安全?以及模型再更新后如何区分客户的数据贡献?这都属于数据飞轮里面的安全管理、定价管理,以及数据和模型的区分等等。目前这些可能还没有特别清晰的划分,至少还未形成一个类似于 Spark 这种大数据处理引擎,但我认为数据管线肯定会围绕计算框架和大模型,发生一个大变革。


请您分享一下算力侧的机遇与挑战。


于璠:其实 AI 由数据、算法、算力组成,框架在中间将三者连接起来,其中算力是一道门槛,也是为什么许多人做不到 L0 模型的一个重要原因,在这里面算力我理解是泛算力的一种说法,在华为的术语上应该对应到,比如说我们真正的那块硬件,然后对应到算子库,再对应到框架,还对应到 ModelArts。


在大模型时代,算力渐渐变成了一个大集群,那我们如能何将它高性能、高可靠地运维起来?刚才我们举了几个例子,性能是非常关键的,如果不仅仅只是看稳定训练那一阵儿的性能,而是也将断掉的那一阵也算上,Meta 的集群三天就会断一次,断一次起来要好几个小时,而我们是 30 天断一次,半个小时之内就能起来,那这样看来我们的性能比 Meta 还要强。当然这个可靠性、可用性不单单是一个环节就能完成,而是整个算力集群软硬件的一体化。


未来还有一个挑战,单纯从硬件上看,FP 16(半精度)、FP 32(单精度)、FP 64(双精度) 要更加平衡,另外里面的带宽,以及功耗等一系列都需要做好,上面的几个软件也需要升级,一个有意思的点就是未来大模型的训练和推理,必然是在一个集群上才能进一步降低成本把大模型商用起来,那这个应该怎么做呢?就是 AI 框架要和 serverless 结合在一起(serverless 完全将硬件和软件解耦出来,能动态调整资源),我觉得在算力的硬件底座上的可靠、可用、功耗等,再加上算子库的完备度,以及 AI 框架和 serverless 的融合,都需要巨大的升级才能真正带来大模型的红利,最终实现变现。


对企业或者是想要做模型的公司而言,AI 框架的项目,以及自身公司的服务与自研,他们应该如何选择会比较好?您是否有什么更具体的建议?


于璠:从我们跟客户的交流来看,客户分为几种类型,一种是实力特别强的,像讯飞、阿里、腾讯等等,也跟华为类似,全栈要自己开发,但是越往下门槛越高,比如说硬件,我们可能将硬件卖给他们,或者他们连我们的库都不需要,而是直接使用指令集,但这类客户不多,且有标杆效应。


更多的行业客户和广度应该是再往上一点,他们不需要关注用什么硬件和软件,而是希望能开箱即用。我们在去年就发现,业界客户用到的典型 AI 产品,可能就 10 个套件,比如说做 OCR 的(票据识别),做人脸识别的,做语音、翻译的,还有生成的如 Stable Diffusion 等等,产品种类非常少,就这么几种,而且现在逐渐稳定了,大模型出现以后,小模型的创新较之前停滞了许多,所以我们就将它们做成套件,就是 MindSpore 的 10 个套件,而且将性能和精度做到业界最强,集成之后客户就可以直接用。


还有一类,就是需要创新突破的做研究的这帮人,我们也需要将这一层的接口开放出来,但这一类就是研究类,并不属于行业客户。


总而言之,目前大概就这么几类人群,行业客户大部分还是聚焦在套件上。


社区的运营


您觉得 MindSpore 社区的发展现状如何?发展过程中是否有碰到什么挑战?


于璠:现在社区可能要有一个转变,以前的运营主力是我们,但是社区或者说 MindSpore 的成功是需要其他人参与的,比如 Pytorch 的核心就一点点,但是它外面生长出来的部分都是其他人做的,在这一点上我们与 Pytorch 存在差距。


所以下一步就是要转变,要有一些高精尖的东西,比如说像刚才说 ChatGPT、AlphaFold 第一版、以及天气预报的模型等都原生在 MindSpore 上,类似这种的是我们第一个想做的事情。第二个就是通过这些东西,不断完善基础能力,让行业客户和研究者们能主动来贡献、主动来主导。目前我们正处于一个由我们主动慢慢转变成生态伙伴们主动的时期,这个转变时期有技术的挑战,也有运营的挑战。


请问您对开源雨林有什么期待,希望我们接下来做哪些事情?


于璠:刘老师和开源雨林应该是我们整个开源界的先驱、领路者,回想一路走来,我们踩过的坑、交的学费,如果前面有很多的泰斗或者先驱者们能帮我们提前把脉,给我们建议,那我们就可以腾飞得更快一点。


从微观来说,希望能与刘老师以及开源雨林多多互动,MindSpore 的技术专家/项目经理如果合适都可以一块儿参加开源雨林的活动,我们也多多分享 MindSpore 的经验,刘老师也能给我们一些建议,比如刘老师您刚才提的案例这件事儿我觉得就很好,AI 的门槛其实挺高的,如果有案例册,客户就能通过案例册了解到社区的很多事情。


—End—



开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系,愿把长期积累的经验系统化分享给企业,在团队、机制、项目三方面提供合作,推动各企业更高效地使用开源、贡献开源,提升全行业开源技术与应用水平。 


开源雨林的内容已开源,并托管在 https://github.com/opensource-rainforest/osr ,欢迎通过 Pull Request 的形式贡献内容,通过 Issue 的形式展开讨论,共同维护开源雨林的内容。

发布于: 21 分钟前阅读数: 2
用户头像

开源雨林

关注

www.osrainforest.org 2022-07-06 加入

【构建开源知识体系,赋能企业开源】 Official Accounts:开源雨林(OS_rainforest) 小助手:osrainforest

评论

发布
暂无评论
于璠访谈录 | AI 框架应该和而不同?_开源_开源雨林_InfoQ写作社区