写点什么

2 千亿级超大模型的构建,能否突破中文场景的极限

用户头像
这不科技
关注
发布于: 2021 年 05 月 18 日
2千亿级超大模型的构建,能否突破中文场景的极限

“人生若只如初见,何事秋风悲画扇。”

“嘈嘈切切错杂弹,大珠小珠落玉盘。”

“万里悲秋常作客,百年多病独登台。”

中文的美感,源于文人墨客对万里江山无限的眷念,也源于中华文明数千年的文化积淀。而如今,在人工智能时代里,想要让中文在不同行业、不同场景发挥更大价值,难免要对算力、算法模型、数据集等诸多因素进行全面突破。

 

近日,鹏城实验室联合技术团队,首次实现基于“鹏城云脑Ⅱ”和全场景 AI 计算框架 MindSpore 的自动混合并行模式,实现在 2048 卡算力集群上的大规模分布式训练,开发出业界首个 2000 亿参数中文预训练生成语言模型“鹏程.盘古”大模型。这一模型的发布,不仅意味将产业在超大模型训练和应用方面再次突破,其也为大量数据缺乏的行业与中小型企业铺下接入智能时代的轨道,推动数字经济发展速度的进一步提升。

 

那么超大规模的 NLP 模型对于行业而言意味着什么呢?类似模型的持续出现,能否真正让中文这一世界上最具神秘色彩和美感的语言为更多领域所应用呢?

数据的指数级增长,超大模型的发展契机

自进入互联网时代以来,数据量的爆炸式增长就从未止息过。十三五期间我国提出了“实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。”在此背景下,体量大、类型繁多、价值密度低、处理要求高的大数据技术开始蓬勃发展,基于大数据而来的各项技术持续完善。

 

十四五期间,我国进一步将云计算、大数据、人工智能等列为数字经济重点产业。东风既起,诸多产业的智能化转型已提上日程,国内外巨头企业相继建立人工智能平台,将技术与产业结合进行创新生态的打造和落地。

 

数据之于模型,如土壤之于大树。没有数据的模型如无根之草,风过即枯。模型之所以能够实现预测推理,其所提供的信息主要来源于两个层面,一个是训练所用数据集,二则是其构造、学习、推理等过程中获得的先验信息。因此,数据的精准度和数据量对于模型的影响可见一斑。

 

以中文为基础的 NLP 模型而言,由于文本处理的复杂性存在,很多行业都面临数据不足的问题,比如数据的多样性、细粒度、数据维度等多个层面的不足以为模型提供更多帮助,从而出现模型过拟合等问题,使得模型在训练样本上效果极佳,但在测试数据集上泛化效果却很差。

 

对于中小公司而言,其在数据敏感度和存储成本方面可用资源是非常有限的,因此想要帮助中小型公司走上智能化转型之路,打造一套更具竞争力的通用性模型就显得价值非凡。不过问题在于,一旦进行跨行业训练,就意味着数据文本量的激增。同时,如何从海量语料中筛选出有价值的信息用于模型训练也会成为其中难点。

 


为提升模型精度,鹏城实验室联合团队从开源开放数据集、common crawl 网页数据、电子书等渠道收集了近 80TB 原始数据。而这些数据如果全部用于数据集打造的话,将会很轻松的击垮算力体系。为搭建了面向大型语料库预处理的分布式集群,团队通过数据清洗过滤、去重、质量评估等处理流程,最终构建了一个约 1.1TB 的高质量中文语料数据集,经统计 Token 数量约为 250B 规模。通过对不同的开源数据集独立进行处理,完全清除了跟下游任务相关的标签信息,以保证源数据的无偏性。

 

当然,如此的超大型模型打造难免会有人对此质疑,因为超大模型的打造对于成本和环境有着颇高要求。举例而言,去年推出的超高人气自然语言处理模型 GPT-3,仅在模型训练阶段就投入了 1200 万美元,而训练大型模型所需的算力也会产生大量的二氧化碳排放,对环境也会产生一定影响。

 

但即便如此,超大模型的发展依然有着其历史必然性。据 OpenAI 的研究显示,深度学习模型的计算能力在 2012 到 2018 年间增长了惊人的 30 万倍,超过了摩尔定律。在这种情况下,很多企业和团队由于成本和资源的限制,使得其对于各类算法模型的实际应用难以企及。在这种情况下,我们便看到了近期国内行业的一系列反应,北京智源人工智能研究院联合推出的 26 亿参数量大模型“悟道·文源”,阿里达摩院推出了 270 亿参数量大模型 PLUG。而鹏城实验室推出的鹏程.盘古”大 NLP 大模型,其参数量则跨越性的提高至 2000 亿,预训练语言模型仅加载就需要 TB 级的内存或显存。

 

我们不难看出,超大模型的发展是迎来了黄金时代。多个调研机构标明,未来的数据量依然会呈现指数级增长,超大模型的价值不仅仅在于解决当前行业智能转型痛点问题,其一样是为未来开路,试探超大规模预训练生成语言模型的真正价值。

超大模型的重重挑战,框架与底层的联手突破

对于各个行业而言,原本简单的事情在多次叠加组合之后,其难度就会直线上升。而这也是限制超大模型出现的主要瓶颈之一。在构建超大模型时,其参数已然突破了千亿,未来还可能突破万亿;而这就意味着超大的数据集用以匹配训练,并需要对模型结构、集群资源配置等方面进行持续优化,其可能涉及数十个维度,超百亿种优化组合。

 

当模型规模急剧扩增以后,开发者的工作压力可想而知。超大模型的并行及切分工作,节点间的通信代码编写,如果以现有的手动工作模式执行无疑是令人绝望的;同时,当超大模型应用于新的环境中时,由于系统环境变更而导致的并行策略重新设计,算法编码重新修改等问题,其难度无异于再造一座罗马。



为解决这些问题,“鹏程.盘古” 大模型打造了一套多维自动混合并行支撑最优计算通信解决方案来支持超大模型训练。该方案基于全场景 AI 计算框架 MindSpore 打造,MindSpore 的多维度混合自动并行能够从工程上提升大规模集群上的自动训练效率。而其中数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行和重计算等 5 个维度可以在图编译阶段实现有机融合,实现一行代码并行训练,大幅提升训练效率。

 

数据并行是最基本也是应用最广的并行方式,其可以将训练数据切分到每个设备训练,通过设备间梯度同步最终实现模型参数更新;算子级模型并行则更进一步,其能够对模型网络中的每个算子涉及到的张量进行切分训练;Pipeline 模型并行则意味着将模型的按层分成多个 stage,然后逐个映射到多台设备上,当然,为了提升效率还可以再次切分多次映射;优化器模型并行可以将优化器涉及到的参数和梯度切分到多台设备上,降低静态内存提升计算效率;重计算 Rematerialization 是针对正向算子的输出累计保存导致的内存峰值问题,舍弃部分输出在反向阶段执行,进而降低峰值。

 

多种并行模式的融合实现的计算通信比的最优化。同时, 基于拓扑感知调度技术,其能够自动根据网络带宽服务内>服务器>机柜间的集群拓扑,把通信量大的调度到服务器内或机柜内,通信量小的调度到机柜间,从而提升网络带宽利用率,进一步对超大模型训练带来的挑战进行解构,提升模型可用性。

 

当然,超大模型面临的挑战远不止这些。从算力方面来看,第三代生成式预训练 Transformer GPT-3 算力消耗为 355GPU 年,而“鹏程.盘古”大模型的算力要求则更高,需要更大集群的算力以及高性能网络。为了降低冗余计算,就必须要对其融合范围、融合方式、融合粒度、端到端可调优空间进行多维度优化。而在调优模式上,以往的经验调优效果也会变差,需要针对超大模型进行泛化进而提升调优收益。

 

此外,“鹏程.盘古”大模型还在图算前端和图算中间表达进行了统一,基于 MindIR 表达算子内部逻辑,实现算子复用图层 Pass、细粒度跨算子优化打破图算信息边界;在优化方面,模型实现了图算跨层联合优化,使得多维度融合组合叠加,提升融合算子计算密度;基于 Polyhedral 的融合算子生成,实现性能最优。

 

作为业界首个千亿级中文预训练语言模型,其不仅填补了业内大规模中文数据集和模型的空缺,也能够切实的在场景中实现行业赋能。尤其是面对一些数据样本不足的产业,如知识问答、知识检索、知识推理、阅读理解等文本生成领域依然能够保持卓越突出,超强的小样本学习能力使其适应能力更加突出。

开源开放赋能产业,大模型的大智慧

以往产业的限制并不仅仅在于人员、模型、算力和数据集等缺失,更加麻烦的是,中文 NLP 场景的开源代码非常稀缺,算法调试难度颇高,再加上集群规模巨大,训练周期被进一步拖长。为解决这一问题,“鹏程.盘古”大模型在推出后,模型、代码、评测数据集已同步在 OpenI 启智社区全面开源开放,训练语料和在线服务体验将在测试评估优化后进一步开源开放。

 

开源开放不仅仅意味着能够吸引更多开发者群策群力,共同参与模型的压缩轻量化和应用创新工作;其还能够以大模型为基础,持续探索通用智能发展道路,打通大规模 AI 设备集群和通用性软硬件生态协同的屏障,形成国产自主可控的通用超大规模分布式训练基座及相关核心技术。

 

具体到行业场景中,超大模型起到哪些作用呢?这便可以结合“鹏程.盘古”大模型的特点来进行分析。作为一款 2000 亿参数的超大模型,其具备前所未有的泛用性,无论是 2B 场景或是 2C 场景,其几乎可以胜任一切与中文相关的场景化任务。在行业中,凡是需要使用结构化知识沉淀的行业均可利用大模型进行学习;同时,其能够实现 AI 服务低成本大规模复制,增强模型即服务的商业价值。

 

更为重要的在于,其能够颠覆现有搜索引擎模式,提升信息获取效率。借用大模型能够从关键词搜索进化为问答式搜索;其还能够增强机器生产类任务的创造力,如自动代码生成、文学音乐创作、网页生成等细分领域的商业服务机会。举例而言,利用“鹏程.盘古”大模型可以实现以下创作:

Input: 李大钊如果在世,他会对今天的青年人说:

Generate: “如果我们多读点书,多观察一点国家社会的实况,遇事能多些思考,多些辨别,就不会被军阀的残暴统治所吓倒,不被他们那一套盲目排外的舆论所迷惑。”“我们要组织大批的有志青年,拿起笔来,到学校里去,把我们的眼睛,耳朵,都用到学校上去,用到社会上去,使我们的思想和行动,都能反映出全国人民的意志,作为我们行动的指南。”

 

在中文 NLP 模型中,往往缺少在小样本学习领域的 benchMark。但是超大模型的一大优势在于,因为有了深厚的数据积累,这使得其有着很强的语言学习能力,特别是在小样本学习和生成任务方面表现更佳。

 

这一特性也被很好的应用于诸多场景之中,比如通过图片来确定食物成分和健康性时,只需要建立一个成分分析器,拍摄任何营养标签的图片模型将识别成分,找到表情符号,确定其是否不健康并给出定义;同样的原理也可以用大模型实现图曲关联,以一张图来分析用户心情,推出 AI 心情电台。

 

当然,小样本学习的优势在结合了开放开源的数据集、模型和代码之后,就意味着更多行业的受益。“鹏程.盘古”大模型能以热门话题语料、教育语料、产品语料、客服语料等为基础,生成对应的盘古模型服务,实现领域相关的文本生成。例如,面向消费者服务领域,其可以是智能聊天、端侧应用、教育 APP、客服等;而面向专业开发者,其可以提供盘古大模型服务(API)、 finetune 能力,引导更多企业和开发者共同参与到行业模型的构建之中。

总结:超大模型的黄金时代

以前,我们说超大模型难以实现,无外乎几个原因:数据集的缺失、算法调试困难、训练周期太长、开源代码不足、集群算力及高性能网络的不足、数据并行策略的确定、算力性能的发挥、硬件限制……挑战有很多,问题也一直存在。可是如果说要构建超大模型,那么理由可能只要一个就够了,那就是大势所趋。

 

面对海量数据的持续扩张,面对大量中文场景的需求,打造超大模型就是这个时代需要做的事情。所以,当一个一个模型摆在面前时,我们很容易看到他们的突破,却很难想象他们在突破这些挑战时究竟经历了多少个日夜的奋斗。

 

而此次鹏城实验室打造的“鹏程.盘古”大模型,不仅仅是业界首个 2 千亿级别的开源超大模型,其也意味着行业中将会有更多的企业因此而受益,享受到 AI 产业发展红利。同时,国内诸多大模型的面世也意味着属于他们的黄金时代正在来临,这些模型不仅能够推动 NLP 技术边界的扩张,还能让数据价值的进一步蔓延,从而让更多企业获取数据价值,构建更加完善的数据生态,让 AI 的技术理念影响更多行业。

发布于: 2021 年 05 月 18 日阅读数: 100
用户头像

这不科技

关注

还未添加个人签名 2018.04.12 加入

非码农的码农

评论

发布
暂无评论
2千亿级超大模型的构建,能否突破中文场景的极限