全面构建 AI 能力,AIFS 为 AI 产业发展按下“加速键”
AIFS(AI Foundation Software)是九章云极 DataCanvas 在大模型主导的 New AI 时代对于全面构建 AI 能力的回答,也是 DataCanvas 产品家族的最新升级。在九章云极 DataCanvas 新产品发布会上,九章云极 DataCanvas 公司副总裁于建岗深度剖析了 DataCanvas AIFS 如何实现面向应用端的巨大赋能,为用户提供自主建设大+小模型的能力,助力企业实现大模型时代下的全新数智化升级。
九章云极 DataCanvas 公司副总裁 于建岗
演讲实录
感谢各位来宾朋友还有线上聆听的观众朋友,今天非常荣幸有机会跟大家分享一下我们九章云极 DataCanvas 这段时间做的事情,2023 年以后进入一个大模型时代,每天有很多新的信息发生,感觉进入信息非常爆炸的时代,每天不看一些朋友圈或者不看一些新闻,感觉就和这个时代脱节了。
这段时间以来,九章云极 DataCanvas 其实一直在积极探索大模型相关的基础设施的建设,今天跟大家汇报一下,希望大家跟我一起经历下面这段旅程,看看九章云极 DataCanvas 在这段时间里面做了什么样的事情。
首先,很荣幸发布两款新的产品,向大家介绍一下,第一款产品元识大模型。到了大模型时代,很多能力基于大模型释放,作为九章云极 DataCanvas 推出的第一款大模型,元识大模型是自研多模态的大模型系列,提供 Foundation model。九章云极从成立之初一直秉承一个理念,我们是人工智能基础软件供应商,多少年来我们这么走过,我们和用户共生长,为用户提供基础软件能力。秉持这个观念,我们同时发布另外一款产品 AI Foundation Software,我们希望一整套 AI Foundation Software 作为 service 能够提供给我们的用户,我们提供一站式人工智能应用共建平台,不仅包括大模型的训练,也包括小模型。现在是大模型的时代,小模型以前做的大量工作就不存在了么?我们以前建的很多模型就没用了么?所有的事情都由大模型解决么?我们不仅提供训练、微调、运行、部署大模型的一整套方案,同时还提供小模型的支撑能力,这也是今天重点发布的第二个产品,AI Foundation Software。下面简单介绍一下两款发布产品的具体特性和价值。
作为 AI 软件工具筏,AI Foundation Software 可以分三层来看,第一层人工智能的基础平台,九章云极从成立之初就在这方面进行耕耘,为用户积累了很多经验。最底座是两款面向世界开源的基础软件:DAT 自动机器学习工具包和 YLearn 因果学习软件。这两款产品得到了广泛的应用,而且是面向世界开源。在这个基础之上,针对大模型训练推出两款新的产品,第一款 APS LMB,这是针对如何去训练大模型,我们的算力目前来讲是非常昂贵的东西,而且存在很多壁垒,目前具体的算力大家也知道,算力成本会急速下降,如何更好地从软件层面解决我们对于算力的需求?我们如何能够更高效、更节省资源地,分布式训练我们的大模型?APS LMB 会做这方面的事情。
第二款 APS Inference,我们训练好大模型,目的是什么?据权威机构预测,之前小模型时代大概 80%—85%的模型在训练出来之后完全没有得到应用,从实验室里面从来没有走出去。一个模型训练出来,在训练条件之下的结果和最后在线上得到广泛应用其实还有很大一段距离,APS Inference 希望对训练好的模型适用条件做一些压缩,在线上利用,例如针对巨大的企业服务,做推理时对 GPU 资源的消耗甚至比训练时还要多,如何做好这方面的事是 APS Inference 要做的。同时,九章云极之前在小模型时代做了很多关于小模型的工作,比如如何对数据进行标注,如何把数据准备好,为训练模型做好准备工作,这也是我们 APS Lab 一直在做的工作,针对大模型我们进一步发展它。
在模型能力层面,九章的元识大模型提供通用通识的大模型服务,同时提供一系列应用于垂直行业的模型。在机器学习小模型方面,九章一直提供四库场景的建设,依然会在 Foundation 基础上向大家提供。做大模型听到最多的词,第一个是大模型,第二,Prompt Manager,怎么让大模型更好地理解,如何做好 Prompt Manager 最后一公里的落地?通过我们的模型工具 Prompt Manager,可以赋能用户用好它的大模型。
最后一公里难在什么地方?我们有世界知识、行业知识、企业知识,知识怎么能够联合起来做服务?很多企业做 Tunning 的工作,结合我们已有的知识做企业内部的服务,熟知的 SFT,比如 LoRA 做一些 Tunning,牵扯到很多能力,在很多企业里面其实是不具备这样的能力进行更精准的服务,我们也会提供工具叫做 Large Model Tunning ,利用我们的工具微调模型,为企业做服务。最后模型微调好了要上线,如何能够更好地监控、部署、管理正在运行的模型,这也是很重要的工作,怎么很好地保障模型的运行?这是我们强调在 MLOps 做的工作。AIFS 的三层架构,从底层的基础平台一直坚持开源 Open Sorce,到中间用强大的模型能力为用户赋能,最后用我们的工具让企业业务真正落地,用 AI 来实现开花结果。
到了大模型时代,有了大模型,小模型是不是不用了?我们的观点,为什么我们提供的 AIFS 既支持大模型,也支持小模型?在一些精准科学计算或者一些特定的业务场景,小模型之前得到了很多应用,甚至于我们做一些符号推理的工作,依然会继续在应该应用的地方得到应用。大模型比如在文本生成、图像生成、数据生成,甚至于在其它方向的生成,未来可能会得到很多应用。这两者之间不是天然割裂的,有一些必然联系。
在训练大模型的过程中需要用 Rewarding model 做一些 first learning,小模型完全可以做 learning model,甚至有大量的数据训练 OpenAI 的 ChatGPT3.5,当时用了 300B token,Londa 训练的时候用了 1.2 万亿的 token,现在很多有 2 万亿 token 去训练。这么多的数据并不需要这么多完完全全的训练,可以用 DATA simple 来工作。在做的时候协助产生一些小模型,比如用知识蒸馏技术把大模型核心的知识浓缩到小模型里面,在小的场景提供服务,这也是我们为什么支持大模型+小模型模式的原因。
整个 AI Foundation Software,再给大家简单介绍一下,也是我们这次针对大模型做的特殊工作。我们的 APS 做大模型训练的时候,我们知道大模型训练并不是每家企业都能做的。现在买了英伟达很好的 N100、H100 做训练,算力需求非常大,我们希望在 Foundation Software 基础软件层能够利用好这些基础的算力,更好地分配基础算力,用 APS 管好 GPU 集群。如何更好地管理我们在训练过程中 memory 的消耗,大家常见的有一些数据的并行,模型的并行,比如如何能够更好地做一些层内或者层间之间的分片,也就是张力或者流水线的并行,或者怎么更好把两者结合起来?我们做混合并行。大家知道 Zero 的技术,减少训练中 memory 的技术。我们想办法解决这方面训练的难点问题,同时,我们秉持一个开源的观念,我们认为未来开源一定是巨大的市场,是一个庞大的市场,而且这个市场里面会充分地发挥我们企业的价值,在里面找到我们自己的立身之地。
同时,在训练的 Fromwork 里面支持国际通用的训练框架,比如 Python、TensorFlow 不说了,同时一些 Cloud AI 加速也会支持。APS 提供 Server 的模块,专门为模型最终的上线做一些特殊的处理。模型从 APS 训练好了之后,可以一键进入我们的 Model Store 里面,对模型做一定的评估,看它能否达到我们的上线目标,是否能在线上应用,假如回答 Yes,针对线上 GPU 集群算力的情况要做一些 Model Compress 的过程,8:1、4:1 做一些压缩,压缩之后会经过几种方式,到 GPU 集群里面去,线上提供监控和运行过程的管理。同时 Promt Manager 在线上通过 API 做一些 Promt 工作,回答你或者提示做什么事情。现在很多人用的 Long Change 一些技术,比如做知识库建设,这种情况下可能会用到我们完全自主开源的 Vector DB 技术。
综合一下我们做的一套东西,现在简单把它列为三个核心的工具,LM Builder 负责训练、LM Tunning 负责大模型的微调、LM Serving 是模型运行的工具,这套工具将会完全开源,开源给我们的用户和伙伴,我们希望用户能够借助我们的工具在大模型时代如鱼得水地落地企业业务,能够让大模型真正开花结果。
作为人工智能基础软件供应商,我们希望我们的用户能够用我们的技术和软件在大模型时代实现业务的价值,同时,我们在 AIFS 的基础之上提供一套系列的大模型服务,我们的元识大模型叫 Alaya,为什么叫 Alaya?有一个小故事,Alaya 是佛教当中的一个词,佛教分八识,Alaya 是第八识,第八识是最重要的,吸取了前面七个知识到第八识里面,通过第八识能够对外界做出反应做出行动,能够真正体现智慧的形象,非常契合九章云极推出的大模型的定位,因此叫元识。
元识提供友好开源的 License 和新的模型训练机制。我们有很多模型,每天出现很多厂家都在做模型,我们的友商也在推出大模型,我们有什么独特的地方,有什么样的技术特点,为什么做大模型?我们所面对的世界是多模态的世界,人类本身有视觉、触觉、听觉、嗅觉等等,本身就处在多模态的世界,大模型要想成为下一代智能化的核心应用必须具备多模态的支持方式。九章元识充分支持多模态工作,提供一系列 Foundation Modle 的模型矩阵。我们基于不同的参数提供一整套的系列矩阵面向我们的用户,不仅能实现作为通用的 NLP 自然语言进行问答,针对运维,针对知识库,针对制造领域等一些垂直领域的探索,同样能运用到我们的元识大模型 Alaya。
元识大模型提供通识模型+产业模型的机制,我们的训练或者做的时候提供的结构,算力层用 APS 提供算力的调度和算力的运作,在数据层九章云极有自己积累的行业数据和通用数据,同时在为用户做业务需求时,能够提供业务数据。在这个基础之上,我们的 APS、AIFS 平台会训练出元识通识大模型和元识行业大模型。客户说我要在某一个垂直领域,比如文稿解析或者研报生成,或者工具 X、工具 Y、知识库、代码生成等等,我们在这个基础上要做一些精调的指令集或者适配器层(LoRA),甚至其它一些经常性的工作,在最上面就会产生针对业务层大模型的应用。AIPS 提供一整套方案来保驾护航,最后生成应用。
元识大模型的四个特点,第一支持多模态。如何更好地对齐输入数据,文本是比较好处理的,图片也是比较容易处理的,针对结构化的数据怎么处理?时序数据也比较好处理,针对非结构化的数据如何处理,如何对齐,如何同时放到 vactor 里面做训练?我们积累了一些经验,做出来一些效果,在中间做了很多的工作,让元识能够处理各种多模态数据。
第二,优化的训练机制。我们在做模型的时候改进 attention 机制,现在的大模型用 Transformer,Google 在 17、18 年发布的,但是我们知道它针对输入的序列是指数增长的计算消耗量,算力消耗在这里面非常庞大,如何能够针对于多模态输入的数据提升它的计算效率,这块我的同事缪旭会详细介绍 Composable fine—tune。几百亿上千亿的大模型,还会发布更大的参数大模型,在做 fine-tune 针对这么多参数是很麻烦的事情,如何更好地把复杂的 fine-tune 分解成简单任务,能够 fix 一些参数?让另外一些参数去 tune 它?
第三,全新的 masking 机制。现在很多大模型分为两派,一派基于 decoder,以 OpenAI 为首;另外一派,既有 decoder 也有 incoder,有两种不同的 masking 机制。我们尝试新的机制,我们同时会支持基于 topic 的 marking 机制做我们的大模型训练,topic 机制会对模式的设置能力有一些增强。
第四,支持更长的 context window。我们改进了 attention 机制,比如全新的 masking 机制,希望支持更长的 context window,一本书扔到模型里面拥有强大的上下文支持能力。
我们一直秉持的观念,九章云极面向世界开源了很多软件。作为世界第一款开源的因果分析软件 YLearn,我们的 DAT,包括 DinggoDB 都是面向世界开源的,在大模型我们秉持这样一套理念,我们会遵循 Apache2.0 license 开源我们的大模型,我们提供白盒模型,现在的很多模型是黑盒,黑盒模型做 Fine-tune 很困难,很难落地。根据企业的知识做 Fine-tune,我们会全面支持 Fine-tune,支持我们的伙伴做一些落地的工作。
刚才介绍的是第一款产品 AIFS,第二款产品元识大模型,有请在美国硅谷做大模型多模态研究和开发工作的缪旭博士,由他给大家详细讲述一下元识大模型所做的探索!
下篇预告:缪旭博士《九章元识大模型加速 AI 产业创新发展》,敬请期待!
评论