ChatGPT 到底有多贵?| 社区征文
1. 引言
ChatGPT 是 OpenAI 公司在 2022 年底推出的智能聊天工具,一经推出就火遍全球。试用过的同学,都可以感受到它的强大,已经脱离了人工智障的境遇;它能通过理解聊天的上下与人进行像人类一样的沟通互动,可以说已经通过了图灵测试,它还可以帮助我们完成写邮件,修改文案,写代码找 bug 等任务。
ChatGPT 似乎在引领一场新的革命浪潮;国内外大公司和创业者都争相进入这个赛道,
谷歌推出谷歌版 chatGPT Bard
Meta 公司(原 Facebook)宣布推出一款名为 LLaMA-13B 的新型 AI 大语言模型(LLM),宣称性能优于 OpenAI 的 GPT-3 模型;
2023 年 2 月 7 日下午,百度在公众号上官宣:「百度版 ChatGPT」文心一言(Ernie Bot),将于三月份向公众开放;
2023 年 2 月 10 日,王慧文宣布复出,携 5000 万美元带资入组。
风口已经出现了,我们能不能做那只风口上的猪?
2. ChatGPT 的前世今生
虽然国内外大公司都在为 ChatGPT 做布局,但是实现一个 ChatGPT 并不是那么容易的事情,从众多复现产品的翻车就可见一斑。
训练一个深度学习模型,涉及到算法、算力和数据三驾马车,同样实现一个 ChatGPT 的难处也体现在这三方面;从另外一角度来看,它实在是太贵了。
要想知道 ChatGPT 到底有多贵,首先先要初步了解下 ChatGPT 是什么?
ChatGPT 目前没有公开的论文和开源的代码实现,OpenAI 只在官网做了简单的介绍和交互界面供大家使用。从介绍种可以看出 ChatGPT 是 InstructGPT 的升级调优版本,同样采用强化学习 Reinforcement Learning from Human Feedback (RLHF);
下图为 ChatGPT 演进史(图片来自符尧:拆解追溯 GPT-3.5 各项能力的起源)
首先我们要知道 ChatGPT 是为了解决什么问题而做的尝试;ChatGPT 属于 GPT 系列的 3.5 版本,之前有开源的 GPT-1,GPT-2 和闭源的 1750 亿参数得 GPT-3 版本。GPT 系列模型都是一个语言生成模型,也就是你输入一个问题或者文本,GPT 会给你输出一个文本;但是之前 GPT 模型的输出按照一定概率输出的,输出的是不可预测的,可能是毫无逻辑的,ChatGPT 或者说 InstructGPT 就是为了解决这一问题而提出的,它使得输出的内容属于人类认知相关的,符合人们预期的。
ChatGPT 是怎么做到的?
从上图训练 GPT 的过程分为:
step1: GPT 输入不符合人类预期,那就加数据;OpenAI 找了一个标注团队人工的生成了一定数量的问答匹配数据,这些数据都是符合人类预期的,然后再此数据集上微调了 GPT-3.5 模型,我们称为模型 A
step2: 毕竟人工标记的数据还是比较有限的,如何提升?OpenAI 想到了强化学习,通过强化学习让模型 A 不断产生输出,然后通过判断输出的好坏,产生反馈 reward 来不断的优化模型 A,关键是如何判断输出的好坏? 于是就有了第 2 步,训练一个 reward model(我们称为模型 B),这里是通过 GPT 模型生成多个不同的回答,人工来判断各个答案的好坏排序,以此训练一个判别模型
step3: 有了判别 reward 模型 B,就可以进行强化学习了;通过强化学习让模型 A 不断产生输出,然后由判别模型 B 做出评判,产生反馈 reward 来不断的优化模型 A。
总结一句:ChatGPT = GPT-3.5 大语言模型 + 人工标注数据微调 + 强化学习
ChatGPT 从技术创新上似乎没有太大的亮点(这也是 Meta AI 的 LeCun 批评 ChatGPT 没有创新的一点原因),但是从工程和产品上 ChatGPT 又是现象级的产品,让 AI 真正和普陀大众联系起来。
再回到 ChatGPT 采用的技术点上,GPT 系列都是采用 Transformer 的 decoder 部分在大量的数据上训练而成,Transformer 最早由谷歌在 Attention Is All You Need 论文提出的开创性的神经网络架构。
后面大火的 BERT 和 GPT 都是基于此发展而来,其中 GPT-3 是一个超大的模型,模型参数就有 1750 亿个,训练的数据就有 4990 亿个 token,一个 mini-batch 的大小都有 320 万。
所以 ChatGPT 训练贵在:
要训练一个超大规模的语言模型(1750 亿参数)
要有大量人力来帮忙标注数据,这也需要很大的成本
微调和强化学习中超大规模的语言模型训练
那训练一个如此巨大的模型,到底要多少算力成本?
3. 训练一个 chatGPT 的算力成本
虽然 OpenAI 并没有明确说明训练 GPT 模型的算力成本,只说明了 GPT 是在微软的一个高性能集群上 V100 GPU 训练而成。而微软的这个集群是 Azure 上的独立的超级计算机系统,包含 28.5 万个 CPU 核和 1 万张 V100 GPU 卡。而英伟达复现 1750 亿参数的 GPT-3 的训练算力是 1024 张 80G 显存的 A100 卡,训练耗时为 34 天。
从侧面反映,ChatGPT 的训练非常贵的,那换算成钱是多少?
可以从某些公有云的报价来看具体的成本
上面给了两个网上公有云的不同参数量的 GPT 模型的训练成本,基本上在百万到千万美元级别。
4. 我们能做什么?
看到这里,你一定会直呼好贵,不仅好贵,而且用如此大数据训练一个如此大的模型也是一件难事,涉及许多工程上的技术,如分布式训练(模型和数据的分布式)。
只有资本雄厚的公司才有机会加入这个赛道,对于个人来说,重头训练一个 ChatGPT 是不太现实的。那我们能做什么?
正如世界上只有少数公司才能造出飞机,但却不妨碍我们去了解和挑选使用飞机一样,我们可以使用 ChatGPT 的服务来改变我们生活。
大家快来使用 ChatGPT 吧!
版权声明: 本文为 InfoQ 作者【AIWeker】的原创文章。
原文链接:【http://xie.infoq.cn/article/282c7f192724f9f130b5af527】。文章转载请联系作者。
评论