浅析大模型在自然语言处理方面的应用
以 GPT-3 为代表的大规模预训练语言模型(以下简称“大模型”)近年来成为了人工智能领域新热点。有关的技术虽然还处于不断发展之中,但是已经创造了不少新的应用场景,同时也为很多已有的智能应用场景增添了产品升级、技术更新的契机。
GPT-3 在训练时主要采用的是英文数据,中文应用应该不是 GPT-3 的强项;另外 GPT-3 的使用目前是不对中国国内的用户开放的,基于 GPT-3 所开发的一些下游应用在国内也是无法使用的。在国内解决大模型的访问问题至少可以采用以下的方法:
使用国产大模型。国产大模型在训练时普遍采用了中文数据,在中文应用的支持方面普遍是没有问题的。国内几家厂商以及科研机构已经推出了几款大模型产品,例如智源的悟道、百度的文心、浪潮的源 1.0 等,其中部分产品可以免费体验。不才海枫山试了试其中的几款产品,智能的效果还都是不错的。
如果应用场景仅涉及英文,可以使用国外的开源大模型,例如 Eleuther 公司开源的 GPT-J-6B、GPT-NeoX-20B 等大模型。由于大模型难以进行本地部署,访问这些大模型目前需要使用国外的大模型云服务,例如 goose.ai 等。
以下是不才海枫山收集整理的一些大模型的应用场景,侧重于自然语言处理相关的领域,希望为对大模型的应用感兴趣的各位起个抛砖引玉的作用吧。
一、大模型计算服务
大模型在推理计算时需要较多的计算资源,加之部署时工程复杂,目前对于一般的应用来说,部署大模型时采用本地部署不太现实,而一般采用云部署,因此,提供大模型的计算、微调、托管等就成为了一类新的云服务项目。
例如在国外,GPT-3 模型已经独家授权给了微软的 Azure 云,成为了 Azure 云的新的服务产品。再例如在国外,不少云服务商推出了基于 GPT-J-6B、GPT-NeoX-20B 等开源大模型的云服务产品。也许是因为 GPT-J-6B、GPT-NeoX-20B 等模型不属于中文模型的原因吧,国内提供 GPT-J-6B、GPT-NeoX-20B 等开源大模型服务的云服务商尚不多见。
二、内容生成
基于 GPT-2 等模型的 AI 写作其实几年前就已经存在了,然而 GPT-3 等大模型的出现使得 AI 写作的质量大幅度提高,虽然大模型目前还无法完全取代人工写作,但是从大模型自动生成的少量文稿中找到一份质量不错的文稿,还是很有可能的。
基于 GPT-3,国外近年来涌现出不少 AI 英文写作的软件和网站。这类付费服务可以根据简单的写作要求,例如主题、标题、关键词等,自动生成推特、博客点子、博客大纲、博客段落、电子邮件、问题提问、宣传口号、商品描述、房地产描述、市场营销短文、招聘岗位描述等,也可以根据输入的一段文字,进行总结、复写、润色、内容延伸、写回复、写标题、翻译等。
国内也出现了不少 AI 中文写作的好应用,除了类似于上述的一些应用外,还出现了 AI 写诗作词、对联创作、歌词创作、小说和游戏的人物和情节创作、情书创作等等。当然无论是国内还是国外,若是希望将 AI 写作的结果用于实用,目前还需要人工的筛选、把关和编审。
除了辅助写作之外,大模型还可以用于其它内容的辅助生成,例如:
创业创新点子生成;
面试题、测试题生成
辩论及反辩论思路生成;
商标、图标、图案、图像生成;
正则表达式、SQL 命令、程序代码生成;
音乐生成,等等。
三、人设聊天
如果能将某位伟人或者名人的著述、访谈、演讲、博客等输入大模型进行微调,产生的模型不就能用来与该伟人或者名人进行问答聊天了吗?在国外确实有人进行了类似的尝试。
有关的尝试是这样进行的:
AI 的人设选取的是美国的说唱歌星 Kanye West(国内昵称“侃爷”);
采用了大模型并且使用该歌星的访谈、名言录、推特、歌词等对大模型进行了微调;
大模型本想采用 GPT-3,但由于 GPT-3 的使用成本太高,最终采用了 GPT-J,GPT-J 经过微调后的效果还是不错的;
模型的部署采用了一家叫做 Forefront 的大模型云服务商;
系统的前后端采用了 React.js、Node.js、Express 等框架。
聊天试验时有关该歌星的常识知识以及他的别具一格的、有趣的说话风格基本上是能够体现出来的,但是所生成的对话内容的适宜性(无不良语言、无不良内容等)和可控性(生成内容与事实无冲突等)成为了项目后期的一个有待解决的问题。
生成内容的适宜性和可控性是当前大模型研究课题中的一个方向。在未找到比较根本的解决方法之前,这一问题有可能通过一些工程方面的方法(例如生成内容限定、生成内容过滤等)来临时解决。
四、产业应用
大模型在开放内容的生成方面目前存在着适宜性和可控性的问题,然而我们可以让大模型在相对封闭的答案空间内生成内容。例如在以下类别的应用中:
文本分类(情感分类、舆情分类、新闻分类、意图识别等);
语义分析(文本向量生成、文本相似度计算、文本搜索、关键词匹配、聚类、智能问答等);
文本摘要;
命名实体识别,
大模型只是用来生成类别选择、文本向量数值、文本相似度数值、匹配出的关键词、聚类结果、原文中的内容片断、原文中内容的某种改写等,这样大模型生成内容的适宜性和可控性就相对容易得到控制。
尽管上述这些应用基本上不算是人工智能的新应用,但是大模型凭借复杂的内部结构、更大的训练集、更高维度向量的知识表示等优点,能够识别更深层次的语义,区分更细微的含义,产生的结果应该比一些较早期技术所产生的结果更加智能。
五、中低速应用
目前大模型的使用一般是通过云服务的形式来进行的,由于大模型的计算时间、计算成本等方面的原因,大模型的很多应用属于或者被设计成为了中低速、中低并发的应用,例如:
在部分中低速的工业应用场景中(例如农田、园林灌溉等),大模型可以用于提供自然语言接口,如果有关自然语言接口的使用者的数量不多,那么这种应用场景对于响应速度和并发性能的要求就都不高;
在司法领域,大模型已经用于案件搜索和法律文件搜索等工作之中,这类应用场景对于搜索速度的要求不是十分苛刻,相比于以前依靠人工、半人工的资料查阅分析,如果应用了大模型后能够批量、比较快速地产生智能的搜索结果,工作效率的提升、大模型应用的价值就会是比较显著的。
大模型直接用于高速、高并发的应用场景,目前来说技术难度较大,可以考虑通过离线计算、缓存结果、增大模型集群等方法来提高系统的吞吐能力。
版权声明: 本文为 InfoQ 作者【海枫山】的原创文章。
原文链接:【http://xie.infoq.cn/article/b680cbc8ed9439f4440b28997】。文章转载请联系作者。
评论