大模型时代下的全新变革
大模型的技术突破为人类的技术视野撕开全新 AI 宇宙的一角,让人类立刻畅想万花筒般的未来。当相信成为一种力量,它将助推不可估量的飞跃发展。在九章云极 DataCanvas 新产品发布会上,九章云极 DataCanvas 公司董事长方磊从 AI 科技企业角度阐述了独到的大模型世界观。
九章云极 DataCanvas 公司董事长方磊
演讲实录
谢谢主持人,非常开心今天下午有这样一个时间段跟大家分享我们最近的思考,我们最近的工作,以及接下来即将展开的、激动人心的答案。再次感谢今天到场的各位领导、各位嘉宾、各位朋友以及线上的各位朋友,欢迎你们来收看九章云极 DataCanvas 今天的 New AI,New Data,New Software 新产品发布会。
今天的主题毫无疑问围绕大模型,大模型是当今最热的话题,也是大家很关心的方向。大模型有很多说法,也有很多观点,九章云极 DataCanvas 先要讲讲我们的世界观。大模型我们怎么看它?大模型的产业发展有很多逻辑在背后,最重要的是怎么看待大模型这件事。
对于我们来说,关于大模型有一个基础观点:大模型需要完整基础设施的升级。大模型不是说今天你拥有了一个模型,就能自动帮你解决某些问题。基础设施其实是非常重要的一件事情,我们人类可能用了 100 年的时间让电力这样的基础设施遍布每个乡村,我们可能用了 50 年时间让高速公路这样的基础设施遍布每个村镇,可能我们的互联网用了二三十年时间让每个人可以上网。在两年前有一个发布会,我跟大家谈到一个观点,我们认为软件也是基础设施,毫无疑问在人工智能的时代,软件是一个基础设施,而且对于大模型来说,软件是尤其重要的基础设施。我们说到大模型需要完整基础设施的升级,这其中包含了软件,包含了硬件,包含了传输等各种各样的条件,需要随时伴随技术的变革来进行升级,最终才能解决实际问题。待会儿我跟大家着重展开我们认为的这些基础设施富有怎样的变化。
第二,大家可能有一些大模型所带来的错觉,大模型变强大了,我们解决问题很简单,只要跟 ChatGPT 这样的大模型互动就解决了问题,是不是这样?有一些简单的问题,比如写一篇简短的小作文就写给你了。但我们需要解决更困难的问题,对社会有深刻影响的问题,不是做简单的摘要和文字叙述,有了大模型技术,要解决的问题变得更加复杂了。比如说我们第一次通过大模型的多模态技术实现对机器人的控制,将机器人的运动、思考、反馈和表达都统一起来,真的可以造一个像人一样工作的机器人,这种挑战在以前是很难实现的。对于这些深刻的变革和影响,其实大模型提供的能力虽然变大了,挑战也变大了。不要简单理解为是一件更容易的事情,我们要把大模型的技术真正使用起来,需要各种基础设施的升级,同时不要把它简单化理解为是更容易的,其实是更困难的事情。
困难的事情要有好的办法来解决,面对大模型的挑战以及想应用大模型做一些更有影响力的事情,我们看看基础设施应该要怎么样变化。基础设施包含很多部分,包含高速公路,包括电力设施,这些就不说了,是整个文明的基础。对于大模型最相关的基础设施我们认为有三个方面:
第一个方面,算力。毫无疑问算力是模型的基础,大家都知道模型来自于数据+算法,经过计算,变成了一个模型,这个模型就是某种智能的结晶,智能的体现。算力当然是必不可少的,我们有了计算的能力,才能把数据加工成模型,大家都知道有一个通俗的看法:模型是历史数据的压缩。而我们未来的事情通过去问模型,去使用模型,能找到一些相似的规律,从而得到答案。
第二个方面,基础软件。当你有了硬件,我们称为 Robo power,怎么把它使用起来?我们有了高性能电脑,希望有好的操作系统,我们用一台高性能的电脑写文章,希望有好的办公软件,其实基础软件就是你要做的那个工作的承载。在人工智能时代,九章云极 DataCanvas 的定位就是人工智能基础软件供应商,基础软件毫无疑问在大模型时代变得更重要,它代表了算法演进的方向,代表了硬件的实效。装了非常缓慢拉垮的操作系统,用最新的电脑,最新的 CPU,可能评价还是非常糟糕的。基础软件很大程度上决定了算法和硬件的使用效果。
第三个方面,数据。数据怎么更有效地进行存储计算?对于人工智能的模型而言,数据是原料,是来源。甚至在未来,数据不仅仅是模型的来源,也可以是模型服务的对象。数据除了计算和存储,还需要共享,在大模型时代我们有不同范围的数据,有社会的数据、行业的数据、企业的数据,数据如果能够更好地跨越边界进行一定的分享、一定的交互,得到的模型也会更加智能。
这些基础设施的变化是我们所期待的,也是在大模型的时代我们认为要达成刚刚所说的两个基础世界观,解决更困难的问题,大模型要应对更大的挑战,这些基础设施的变化都是我们所需要的。
算力新摩尔定律,大家都知道摩尔定律这个词,其实意思是类似的。我这里举了一个例子,大家能看见这张图其实是一个咨询机构预测的算力带来的成本下降。算力很有挑战,现在所有人都希望获得算力,算力的成本非常高,但随着时间的函数是急速下降的,2020 年当我们训练 GPT3 这样一个模型所需要的算力开销是 460 万美元,而去年底下降到 45 万美元左右,下降一个数量级。昨天有很多新闻报道,在美国一家提供 GPU 的云公司 CoreWeave 和英伟达合作,在 3584 张 H100 最先进的卡上进行了 GPT3 的模型训练,只用了 11 分钟就训练完了,把原来几个月的事情变成了 10 分钟,一个小时以内的事情。这是时间上的震惊,这 11 分钟需要多少钱?以今天 CoreWare 的收费标准,2 万美元。在 2023 年这个承上启下的日子 6 月 30 号,只要 2 万美元可以训练一个 GPT3 的模型。
算力的新摩尔定律每 18—24 个月性能提高一个数量级,成本下降一个数量级,这是一个完全不夸张的说法,大家可以看到这个标准,在 2020 年 BERT- Large 还算一个比较大一点的模型,BERT 模型只需要 0.13 分钟,8 秒左右就训练完了。这个测试有 3000 多张卡,有一些是为了打破记录而打破记录,但是可以清晰体会到在今天这个算力新摩尔定律的时代,算力是很短缺的,是非常需要的,但算力的增长、性能的提升和成本的下降同样是惊人的,奠定了很好的基础设施变化。我们会拥有充沛的算力,不会生活在算力紧缺的时代,我们可能面临算力紧缺的时期,但在大模型的时代,这是算力充沛的时代,当然需要我们投资去建设,但是技术的发展会给我们充沛的算力,去构建更好、更强大、更灵活的大模型。
在有算力的基础上我们来看一下数据,在这里面比较激动人心的新闻来自于通用大模型,从我们的判断来看,包括业界有非常多的人同意我们的判断:行业和垂类大模型的数量将大大超过通用大模型。简单想象一下,一个人大学毕业可能相对通用一些,学了世界知识,他去工作进入到做飞机的工厂,进入行业学习行业知识,知识还是有边界,数据有边界,学习了知识获得了数据,从世界知识到行业知识,最终在企业还有自己的一些积累,甚至经营管理的秘密,那是企业的知识。
在这个世界里面天然拥有通用的世界知识,拥有行业知识,拥有企业知识,这些知识是有边界的,这些数据是有边界的。当不同的企业组织去使用这些大模型能力的时候,天然的也是有边界的。我们容易得到这个结论,我们相信这个判断,行业大模型、垂类大模型在企业内部使用,在行业里面使用,最终数量会大大超过通用大模型。它消耗的算力我们判断也会大大超过通用大模型,虽然大家觉得 OpenAI 的模式是通用大模型,它甚至主宰了所有,在数据的边界下,其实不是这样的。大模型的落地会更多体现在行业,体现在企业,这是我们认为数据有边界所带来的。
在基础设施的变化中,我们希望数据产生流动,跨越某些企业,跨越某些行业边界带来新的应用。比如数据都可以流动了,我们的模型既能学习世界知识、行业知识,还能学习一部分企业知识,能够串联起来,这是我们期待的变化,最终这个边界会存在。
基础软件上,我们着重提出,软件是差异化的核心。为什么?硬件的性能大家知道,它非常重要,刚刚说的算力进步很大部分来自于硬件的进步,硬件相对是同质化的,说的简单一点,今天你购置了一块 H100 的卡,我也买了一块,咱们俩可能从硬件角度来说是类似的。相反,如果真去训练它的话,最终的结果有可能大相径庭,我训练成功了,你训练失败了,我训练 1000 小时完成,你训练 200 小时,你的模型没有我的模型聪明。软件决定了性能和成本,相同的硬件条件下,软件是决定性能和成本差异化的关键所在。
从另一个角度来看,如果我们需要更好更灵活更强大的模型,在同样的硬件条件下,软件为硬件提供的优化空间是巨大的。大家都知道大模型基于 Transformer Attention 机制,Transformer 人类发明它没几年时间,现在的硬件未必对 Transformer 结构做了优化。软件、硬件和模型进行统一优化的空间是非常巨大的,在统一优化的巨大空间里,主要的创新动力我相信还是来自于软件,软件将进一步地适应硬件,为了专有的算法结构进行加速,当然硬件也会进步。
我们认为软件会体现当前硬件的差异化,同时它配合硬件的发展将会是创新最活跃的地方,以提升我们的性能。我们刚才讲过算力新摩尔定律 18—24 个月提高一个数量级,加上软件的加速,其实 OpenAI 提到过类似的说法:每 18 个月我们软件就让它提速 1 倍,好像看起来没有 10 倍那么激动,但是 10 倍之上再提速 1 倍就是 20 倍,也是非常快了。在算力建设提升的基础之上,软件会带来差异化的力量,是最终的用户、最终的客户、最终的商业所需要的,一个效率更高的 AI 基础设施,将虚拟训练出来更聪明的模型。
如果我们假设数据越来越好,也能够打通一些边界,我们的算力沿着新摩尔定律越来越快,越来越充沛,我们的软件也越来越优化,如果都变好了,最终落地的挑战是什么?我想着重提一下最后一公里这个事情。在小模型时代,最后一公里的小模型落地是比较困难的,因为有很多数据的变化,包括模型能力的泛化性不够,大家都说最后一公里的适配很麻烦。大模型来了,最后一公里消失了么?我们有很多次浪潮把最后一公里变得短一点、简单一点,995 米,甚至 95 米,但是最后一公里不会消失,依然会是大模型技术落地的挑战。在最后的一公里里面,我们的这些知识,不管是世界知识、行业知识还是企业知识,还有软件、硬件,依然要跟业务做一定的结合,而这个结合的空间其实也是创新的空间。我们不指望一个模型经过一些历史数据的训练就自动弥合所有的鸿沟,我们认为这个可能性是没有的,依然有最后一公里,不是简单的拿来主义,买来大模型解决所有的业务问题,这种可能性没有。我们现实中全世界有这么多聪明的人,人类作为种族诞生过爱因斯坦、牛顿绝顶聪明的大脑,今天也没有存在一个情况,请一个人来这个企业所有的事情就解决了,这个也是不现实的。
大模型是非常类似的,在知识的边界、数据的边界下,大模型不是简单的拿来主义,依然要解决最后一公里的问题。怎么解决最后一公里?受益于刚才说的三个要素,更多的算力、更便宜的算力、非常弹性开放的白盒模型,允许我们针对企业的情况进行调整,让它适应企业,学习这个企业的知识,最终为这个企业所用,为用户所用,我们称之为开放弹性的白盒模型,让最后一公里跨越鸿沟的过程变得更简单更低成本。同样我们需要了解业务的从业人员,这个从业人员也许不像以前是非常精深的算法专家,必须是了解业务的分析人员,甚至是业务人员从业者本身,但他依然是跨越鸿沟必不可少的人的因素。强大灵活的基础软件,开放弹性的白盒模型,再加上了解理解业务的从业人员,最后一起跨越最后一公里的鸿沟。我们要有清晰的认识,大模型落地依然是最大的挑战,我们做的每步工作都是让最后一公里能够跨过去,能够简单一些。
我们看一个宏观的画面,对于人工智能产业我们认为有三大推动力三驾马车。算力建设是非常重要的一股力量,还有今天所讲的大模型相关的也是推动力量。我还想补充另外一股非常强大的力量,我称为央企云。云计算的市场在美国经过公有云,在中国经过类似的公有云似乎不是很成功,或者似乎还有待发展,现在其实我们国内的云计算市场进入新的时代,在这个时代里面比如以央企为核心的企业构建了自己的云,在市场里面已经明确占据了自己的位置,甚至说占据了主要的位置。它们的一些运行方式、获客能力、建设规模跟以前都有一些不同。今天不是一个云计算的专场,不再赘述,大家意识到我们云计算的市场在发生深刻的变革,在进行换代。算力在进行一场史无前例的大规模建设,而大模型也带给我们一场前所未有的技术变革,当这些力量汇集到一起,确实是未有之大变局。对九章云极 DataCanvas 是一个机会,对所有的人所有的企业所有的个人都是一次巨大的机会。
我把这些推动力总结为我们要做的事情,我们要采取的行动,九章云极要做什么事情?我们希望把我们的基础软件能力 AI Foundation Software,通过云中云战略,把自己的软件作为核心能力嵌入到市场这些云厂商当中,嵌入到智算中心里面,把智算中心看成是 GPU 云,云市场里面的很多伙伴,围绕央企 GPU 云提升,这是九章云极以前跟大家有过多次沟通的云中云战略。我们会把我们的基础软件通过云中云战略,联合云厂商、智算中心等合作伙伴提供一站式服务,从而实现从 AIFS (AI Foundation Software)产品到 AIFS(AI Foundation Service)服务的转变。
评论