预训练对话大模型深度解读
1、背景介绍
ChatGPT 爆火,大模表现的“涌现”现象,证明了大模型的这条路行得通。生成式对话大模型在 Turing 测试中已逐渐接近人类水平,现在 ChatGPT 生成的结果难免让人误以为 AI 有意识了开始人格觉醒了,一顿惊慌。前段时间看到吴军博士的一个分享:”ChatGPT 不算新技术革命,带不来什么新机会“,里面讲到一个道理,这些都是资本家操作出来割大家韭菜的。其实它只是一个数学模型,它强大的原因是:用到的计算量很大、数据量很大、训练语言模型的方法比以前好。那么在这之前都有哪些机构在研究呢?我们先大概了解下生成式对话模型的发展历史。
2、生成式对话模型发展历史
目前 AI 的发展已经历三个时代:
基于规则时代,1966 年计算机发展之初,MIT 的教授基于规则研发了用于心理治疗的 Eliza,有点像我们的”正则表达式“;
智能助手时代,资本一顿狂追,成果则良莠不齐,小度、小爱,有点傻傻的”智能“;
深度学习时代,典型的 ChatGPT。
3、模型家族介绍
3.1 DialoGPT
由微软研发的,基于 GPT 架构,包含三个参数量版本:117M、345M、762M。它从 Reddit 上抽取 147M 对话数据。它的特点是交互信息最大化(MMI):
避免生成无意义、无信息量的内容
给定目标生成内容,计算生成输入的概率 p(source/target)
使用该概率作为所有生成结果的 rerank 参考值。
开源地址:https://github.com/microsoft/DialoGPT
3.2 Meena
由谷歌研发,基于编码器-解码器的模型结构,参数量 2.6B,预训练数据 341GB。由于人工评价方法缺乏标准体系,它提出人工智能评价体系 SSA:合理性(Sensibleness)与具体性(Specificity)的平均值(Average),它的性能显著超越 DialoGPT,逼近人类水平。
论文地址:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
3.3 CDial-GPT
由清华 CoAI 小组研发,基于 Decoder-Only 架构,参数量 104M,预训练数据包含了大规模高质量中文开放域对话数据集 LCCC,包含 Base 和 Large 两个版本:
Base: 对话数 680 万,数据来源于 7900 万微博数据
Large:1200 万,数据来源于 7900 万微博数据及 650 万开源对话数据
目前人工测评结果优于原始 Transformer 模型和中文 GPT-2 模型:
测试数据集:STC 微博数据集
人工评价维度:流畅度、相关性、信息量
CDial-GPT 获得了中文自然语言处理会议 NLPCC 2020 最佳学生论文奖,收到学术界和工业界的认可。
数据集:https://github.com/thu-coai/CDial-GPT
论文地址:https://arxiv.org/abs/2008.03946
3.4 BlenderBot
由 Meta AI 研发,共包含 3 代版本:
第一代 2020 年
模型信息:Encoder-Decoder,参数量 2.78B 及 9.4B
预训练数据:Reddit 语料
微调数据:众包语料
主要能力:开放域闲聊+多技能融合,包含人格化、知识性、共情性等
第二代 2021 年
模型结构和第一代相同,沿用 2.7B 参数量的版本
新增能力:联网搜索+长时记忆(基于检索增强方法)
第三代(2022 年)
改为采用 Decoder-Only 结构(基于 30B 和 175B 的 OPT 模型)
不再纯端到端生成,而是模块功能化+流水线执行(参数共享)
新增能力:完成开放域任务+终生学习
3.5 EVA
由清华 CoAI 小组研发,共包含 2 代版本:
VEA1.0
28 亿参数
在 181G WDC-Dialogue 上训练而成
开源首个十亿级别中文对话模型
EVA2.0
28 亿参数
在精洗细洗的 60G WDC-Dialogue 上训练而成
详细探索了影响对话预训练效果的关键要素
目前规模大、效果最好的开源对话模型
开源多规模版本模型
目前 EVA 在所有自动指标,人工指标上显著超越其它开源的 baseline 模型。
开源地址:https://github.com/thu-coai/EVA
3.6 PLATO
由百度研发,共包含 4 代版本
第一代 PLATO(2019 年)
基于 UniLM,参数量 110M
方法:
引入离散隐变量建模上下文和回复一对多的关系
使用角色嵌入向量区分对话中的角色
第三代 PLATO-XL(2021 年)
参数量 11B
方法:
去掉隐变量
数据引入多方对话
性能
在连贯性、一致性、信息量、事实性、趣味性上取得优异表现
第四代 PLATO-K(2022 年)
旨在解决开放域对话系统中信息量缺乏和事实不准确的问题,规模 22B
两阶段训练:
常规对话数据训练
首先生成 query,基于该 query 搜索外部信息并加入上下文进行回复生成
各项评估解决均优于 PLAT-XL
在知识性上有大幅提升
论文地址:https://arxiv.org/abs/2109.09519
3.7 LaMDA
由 Google 研发,基于 Decoder-Only 架构,参数量 137B,在 2.81T 的 token 上进行了预训练。使用众包数据进行微调,主要能力包含:合理、趣味、安全的开放域闲聊,引入 Toolset(TS),包括计算器、翻译器和检索器。
LaMDA: our breakthrough conversation technology
3.8 OPD
由清华 CoAI 小组联合聆心智能研发,基于 UniLM 架构,在预训练阶段引入 Soft Prompt,促进下游任务上做参数高效的微调,参数量 6.3B,在 70GB 高质量对话数据进行预训练。
主要能力包括:
兼顾出色的闲聊能力和知识问答能力。得益于此,OPD 的多轮交互能力突出,能够与用户进行多轮、深入的对话交互,性能显著优于 EVA2.0,百度 PLATO 和华为 PANGU-BOT
支持根据用户反馈实时修复模型生成结果中的问题,从而在交互中不断迭代优化模型。
开源地址:https://github.com/thu-coai/OPD
3.9 ChatGPT
核心技术
指令学习:构造各种任务的指令数据并用于微调模型,使模型拥有强大的任务泛化能力。
基于人类反馈的强化学习(RLHF)
从人类反馈中学习
通过人来的偏好训练奖励模型,使用 PPO 算法优化策略模型(即生成模型)
将模型的输出结果对齐至人类偏好
突出特点:
遵循指令能力出色
多轮交互中能很好的遵从指令,例如对于之前指令的修改、补充
可以轻易的使用 prompt 让模型完成各种任务,例如角色对话,文字游戏
对话历史建模能力突出:在多轮交互中具有很强的长程记忆能力,能够完成很早轮次指令的修改
多语言能力强:支持各类主流语言,如英语、汉语、日语等,并且在英语之外的语言上没有明显的性能下降
回复信息性强:倾向于生成较长的回复,回复中包含很多相关信息(可能存在幻觉)
安全性好:ChatGPT 的安全漏洞很少,并且还在持续优化
3.10 Character AI
是一家创业公司,不过创始人为 Transformer 和 LaMDA 的作者,估值超过 10 亿美元,是角色扮演类聊天机器人,主要功能包含:
与 AI 扮演的角色自由聊天
通过定义角色描述自由创建角色
通过声音、图片和橘色进行多模态交互
角色类型多样,包括人物、物品、工具、文字冒险游戏系统等。
突出优势体现为:
角色属性多样,泛化性强
用户反馈系统和用户社区建设完善
技术路线主要采用大模型+提示,并且外接了文生图模块。
产品地址:https://beta.character.ai/
4、总结
本文介绍了十款模型家族的模型,从中我们可以看到大模型确实不是新技术,但是 ChatGPT 做的更好,引入了反馈机制。整体而言整个大模型的发展模型架构都区域统一,参数规模持续增长。目前还有一些量化技术支持将大模型离线部署到手机、电脑等,除了受限于 CPU 算力,推理慢,生成结果效果已经很不错。
版权声明: 本文为 InfoQ 作者【轻口味】的原创文章。
原文链接:【http://xie.infoq.cn/article/a83d914c65e506cf91f1f7af5】。文章转载请联系作者。
评论