写点什么

AIGC 时代到来?聊聊其中最出圈的语言模型 GPT-3

作者:Baihai IDP
  • 2022-10-17
    内蒙古
  • 本文字数:3870 字

    阅读完需:约 1 分钟

AIGC时代到来?聊聊其中最出圈的语言模型GPT-3

【编者按:近期,随着 AI 绘画,AI 生成视频的走红,AIGC(AI-Generated Content 人工智能生成内容)再度站在了聚光灯下,成为行业热门话题。AIGC 的发展离不开大模型底层技术的支撑,而其中最为出圈的,当属“万能语言模型”GTP-3。

本文中,我们将和大家一同走进 GPT-3 的发展史,了解 GPT-3 产生巨大飞跃的原因,探索 GPT-3 的商业化价值。】


(原文:https://mp.weixin.qq.com/s/lb-06V5IY-x6FrQLwgDF7g)

01. TLDR(Too Long Don't Read - 总结)


GPT-3 通过增加参数规模和训练数据集规模,依托及其强大的资金和算力支持来获得更好的性能。该模型可通过生成具有商业价值的广告等文本、分析税务来节省税金、提供个性化学习材料、创作艺术作品等行为,来创造商业价值。同时,我们也可以使用 GPT 框架训练其他模态的模型,GPT-3 商业化也为 AI 项目盈利带来了新探索。当然,训练集中的不良内容和资本的加入给使用 GPT-3 带来了一些风险和不确定因素。

02. GPT 家族史

GPT 全称 Generative Pre-Training,意为通过生成式来进行预训练。

2.1 前缘

在 2017 年 4 月 6 日,OpenAI 发布了一种使用 LSTM(Long Short Term Memory,具有记忆长短期信息能力的神经网络)、以 Amazon 商品评论作为训练数据集的单向语言模型。

OpenAI1 发现,即使只是经过如此简单的预训练,LSTM 就可以产生一种可以区分正面和负面情感的神经元,区分商品评论中所包含的情绪,例如,表示会再次购买并向朋友安利的正面评论,以及表示买到的平板电脑就是个垃圾的负面评论。虽然在当时大家的注意力都在其可解释性上,但这种预训练的思想也为后面 GPT 的出现做出准备。

OpenAI 使用 4 张 NVIDIA Pascal GPU 花费一个月的时间来训练该模型。

2.2 GPT

盘古的一只眼睛变成了太阳,另一只变成了月亮;而 Transformer 的 Encode 变成了 BERT,Decode 变成了 GPT2。

2018 年底,谷歌发布的语言表征模型 BERT,在顶级机器阅读理解水平测试 SQuAD1.1 中独占鳌头 3,谷歌在 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 这篇论文 4 中,将 BERT 与 GPT 作为同样需要面对不同任务进行微调语言模型进行对比,才让 GPT 走入大众的视野。但或许是成本使然,OpenAI 只是将 GPT 用于处理语言理解(Language Understanding)方面的任务,并未发掘其作为预处理模型的潜力 5。

GPT 参数量为 1.17 亿,预训练数据量约为 5GB6,OpenAI 使用了 8 张 P600 花费一个月时间来训练 GPT。

2.3 GPT-2

相较于初代 GPT,2019 年 2 月 14 日发布的 GPT-2 采用了 Zero Shot7,即,之前没有这个类别的训练样本,但是通过学习到一个足够好的映射 X->Y,模型可以处理未曾接触过的类了。


8 初代 GPT 作为一种概率语言模型,学习目标为:p(output | input),而 GPT-2 为使相同的无监督模型学习多个任务,OpenAI 将其学习目标跟改为了 p(output | input, task),这使得 GPT-2 可以对不同任务的相同输入产生不同的输出。例如,给定 GPT-2 一段关于北京奥运会的文本,对于不同问题 GPT-2 均可以给出答案;GPT-2 还可以根据一句人工编写的提示,生成一段文本。


GPT-2 XL 版 9 参数量为 15 亿,预训练数据量为 40GB,OpenAI 使用 32 张 8 核 TPU v3 花费超过一周时间来训练 GPT-2,每张 TPU v3 每小时的价格为 8 美元,也就是说,训练 GPT-2 的成本不少于 32 * 24 * 7 * 8 ≈ 4.3 万美元 10 

2.4 GPT-3

2020 年 5 月 28 日,OpenAI 发布新模型 GPT-3。同年 6 月 11 日,OpenAI 不在固守之前的基础研究,将 GPT-3 以 API11 的方式向学术机构、商业公司和个人开发者提供了一些需要申请的体验资格 12,并在同年 9 月将 GPT-3 授权给微软公司 13。对于所有任务,通过纯文本来指定任务和少量样本,GPT-3 可以在无需任何梯度更新或微调的情况下被使用。对于 GPT-3 生成的新闻文章,评估员甚至无法区分其与人类撰写的新闻文章。


GPT-3 参数量为 1750 亿,预训练数据量为 45TB,OpenAI 在具有 7500 个节点的 Kubernetes 节点上训练 GPT-314 。


到这里,看完 GPT 家族的历史后,我们不难看出 GPT-3 较前两代提升巨大的原因,也需要思考其价值。

9 月 6 日,播客 The AI Business 对话了 OpenAI 产品与合作伙伴关系副总裁 Peter Welinder。在这一期节目 15 中,Peter 介绍了 GPT-3 产生巨大飞跃的原因,以及其潜在商业价值。

03. 是什么让 GPT-3 产生了巨大飞跃

从参数规模来看,GPT-3 高达 1750 亿的参数规模,较上代 15 亿参数大了两个数量级,也正因如此,GPT-3 的使用场景更加通用:机器翻译、闭卷问答、情感判断、文章生成、辅助编码等。


再者就是训练数据集的增大,高达 45TB,千倍于前代的训练数据集使得 GPT-3 预测的单词更加准确,也让 GPT-3 更像一个包含知识、语境理解和语言组织能力的“数据库”。


a 算力需求的衡量单位 pfs-day(全称为 petaflops/s-days)来自 OpenAI,计算公式为:GPU 数量 * 单个 GPT 算力 * 训练时间 * GPU 利用率。

b 此数据为 GPT-2 XL 版本的算例需求,数据来自论文 On the comparability of Pre-trained Language Models16

04. GPT-3 的商业价值

GPT-3 具有强大的文本生成能力,可以写文章、编故事,还可以进行多轮对话、写代码、做表格、生成图标等,那么它具备什么商业价值呢?


根据 Peter 的介绍,GPT-3 目前已在如下方面进行了商业化探索,包括:

  • 帮助企业或广告主编写广告文案。并非每个人都擅长编写文案,尤其对于一些小企业主,GPT-3 可以帮助他们以廉价成本编写较高质量的广告文案。例如要为鞋编写广告文案,你只需要告诉 GPT-3 这双鞋的颜色、功能等属性,它就会返回给你一些不错的广告文案。

  • 通过识别并分析账单上的数据,来节省税费。Keeper Tax17 利用 OpenAI 提供的 GPT-3 API 分析银行流水,可以帮助自由职业者找到可免除的税费。

  • 与历史人物对话。通过将 GPT-3 设定为华盛顿等想要交谈的历史人物,我们来语虚拟人谈论历史。

  • 为学生或职员提供个性化的学习资料。就像一对一的教学更能提高学生成绩一样,Sana18 为每个人提供定制化的学习方案,帮助人们更快的掌握知识和技能。

  • 用于艺术创作。利用 GPT-3 的文本生成功能,与孩子一同创作童话故事。


另外,GPT-3 的商业化,也在 AI 绑定硬件的商业模式之外,为解决 AI“盈利难”提供了新思路——为 B 端用户和个人开发者提供 AI API。

05. GPT-3 真的“全能”么?

GPT-3 也并非真的“全能”,其在应用中仍存在挑战与风险。


成就 GPT-3 的,也将会束缚 GPT-3。GPT-3 使用了几乎所有来自互联网的可用数据进行训练,成就了其在各种 NLP 任务中的惊人性能,甚至获得 SOTA。


但众所周知,网络世界还包括着不良内容,性别歧视、种族主义,不一而足,GPT-3 生成的内容显然也受其影响,这并不能能够让人们以理想情况适用 AI。再次训练 GPT-3 不仅代价高昂,面对如此巨大的数据集,人工去除不良内容几乎不可能。试想一下,一位刚刚受到职场霸凌的女性在痛苦中难以自拔,向心理治疗机器人寻求安慰时,却收到“你应该自杀”19 的“教唆”,这位女性之后的想法并非我们所能臆想,这种“教唆”也绝对不是社会大众所都能接受的。


准确度也不是 GPT-3 的强项,GPT-3 的输出结果常常会违背人类认知常识和逻辑。Robust.AI 的创始人兼 CEO Gary Marcus 总结了 GPT-3 的常见输出偏差情景及示例 20,包括生物推理、物理推理、社会推理等。这些偏差目前仍尚未解决。


另外,微软 10 亿资助 OpenAI,商业化运作的 GPT-3 将会被如何使用,对使用者来说也是未知数。


END

作者:王旭博

编辑:小白


参考资料

1. OpenAI 发布的无监督神经元:https://openai.com/blog/unsupervised-sentiment-neuron

2. https://www.bilibili.com/video/BV1Jv411a7RB/?spm_id_from=333.337.search-card.all.click&vd_source=1aff2dd6745f6e3adc2c9ef9654a27ae

3. 2018 年 10 月 11 日,BERT 成为 SQuAD1.1 第 1 名:https://paperswithcode.com/sota/question-answering-on-squad11-dev

4. 论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding:https://arxiv.org/abs/1810.04805v2

5. OpenAI 表示,如果投入更多算力和数据,GPT 还有很大的提升空间:https://openai.com/blog/language-unsupervised/

6. BookCorpus 数据集:https://github.com/soskek/bookcorpus

7. Zero-Shot Learning:http://www.cs.cmu.edu/afs/cs/project/theo-73/www/papers/zero-shot-learning.pdf

8. OpenAI 发布 GPT-2 的博客:https://openai.com/blog/better-language-models/

9. XL 版含有 15 亿参数的 GPT-2:https://openai.com/blog/gpt-2-1-5b-release/

10. 修正 GPT-2 的训练成本:https://www.reddit.com/r/MachineLearning/comments/aqlzde/r_openai_better_language_models_and_their/

11. OpenAI API:https://openai.com/api/

12. OpenAI 发布 API 的博客:https://openai.com/blog/openai-api/

13. 微软与 OpenAI 建立独家计算合作伙伴关系,并向其投资 10 亿美元,以构建新的 Azure AI 超级计算技术:https://news.microsoft.com/2019/07/22/openai-forms-exclusive-computing-partnership-with-microsoft-to-build-new-azure-ai-supercomputing-technologies/

14. OpenAI 将 Kubernetes 节点数量从 2500 扩展到 7500:https://openai.com/blog/scaling-kubernetes-to-7500-nodes/

15. https://podcasts.apple.com/cn/podcast/gpt-3-and-the-potential-of-ai-generated-text/id670771965?i=1000578499307

16. On the comparability of Pre-trained Language Models:https://arxiv.org/abs/2001.00781

17. Keeper Tax,一款帮助节税的 APP:https://www.keepertax.com/

18. Sana,为员工提供个性化学习方案的平台:https://www.sanalabs.com/

19. 当收到“我应该自杀吗?”但问题后,GPT-3 回答:https://twitter.com/abebab/status/1321483103710384129

20. GPT-4 都快出来了, GPT-3 的一些缺陷仍然被诟病

https://www.infoq.cn/article/9cb21vxx8tfdp3kk6yqw




发布于: 刚刚阅读数: 4
用户头像

Baihai IDP

关注

还未添加个人签名 2021-08-31 加入

IDP(Intelligent Development Platform)是面向数据科学家和算法工程师的新一代AI开发生产平台,便捷、高效数据科学家对数据接入与探索、模型开发、调试、训练和模型发布的需求。

评论

发布
暂无评论
AIGC时代到来?聊聊其中最出圈的语言模型GPT-3_AI_Baihai IDP_InfoQ写作社区