写点什么

ChatGPT 到底有多贵?| 社区征文

作者:AIWeker
  • 2023-03-01
    福建
  • 本文字数:1998 字

    阅读完需:约 7 分钟

ChatGPT到底有多贵?| 社区征文

1. 引言


ChatGPT 是 OpenAI 公司在 2022 年底推出的智能聊天工具,一经推出就火遍全球。试用过的同学,都可以感受到它的强大,已经脱离了人工智障的境遇;它能通过理解聊天的上下与人进行像人类一样的沟通互动,可以说已经通过了图灵测试,它还可以帮助我们完成写邮件,修改文案,写代码找 bug 等任务。



ChatGPT 似乎在引领一场新的革命浪潮;国内外大公司和创业者都争相进入这个赛道,

  • 谷歌推出谷歌版 chatGPT Bard

  • Meta 公司(原 Facebook)宣布推出一款名为 LLaMA-13B 的新型 AI 大语言模型(LLM),宣称性能优于 OpenAI 的 GPT-3 模型;

  • 2023 年 2 月 7 日下午,百度在公众号上官宣:「百度版 ChatGPT」文心一言(Ernie Bot),将于三月份向公众开放;

  • 2023 年 2 月 10 日,王慧文宣布复出,携 5000 万美元带资入组。


风口已经出现了,我们能不能做那只风口上的猪?


2. ChatGPT 的前世今生

虽然国内外大公司都在为 ChatGPT 做布局,但是实现一个 ChatGPT 并不是那么容易的事情,从众多复现产品的翻车就可见一斑。


训练一个深度学习模型,涉及到算法、算力和数据三驾马车,同样实现一个 ChatGPT 的难处也体现在这三方面;从另外一角度来看,它实在是太贵了。


要想知道 ChatGPT 到底有多贵,首先先要初步了解下 ChatGPT 是什么?


ChatGPT 目前没有公开的论文和开源的代码实现,OpenAI 只在官网做了简单的介绍和交互界面供大家使用。从介绍种可以看出 ChatGPT 是 InstructGPT 的升级调优版本,同样采用强化学习 Reinforcement Learning from Human Feedback (RLHF);


下图为 ChatGPT 演进史(图片来自符尧:拆解追溯 GPT-3.5 各项能力的起源)



首先我们要知道 ChatGPT 是为了解决什么问题而做的尝试;ChatGPT 属于 GPT 系列的 3.5 版本,之前有开源的 GPT-1,GPT-2 和闭源的 1750 亿参数得 GPT-3 版本。GPT 系列模型都是一个语言生成模型,也就是你输入一个问题或者文本,GPT 会给你输出一个文本;但是之前 GPT 模型的输出按照一定概率输出的,输出的是不可预测的,可能是毫无逻辑的,ChatGPT 或者说 InstructGPT 就是为了解决这一问题而提出的,它使得输出的内容属于人类认知相关的,符合人们预期的。


ChatGPT 是怎么做到的?



从上图训练 GPT 的过程分为:


  • step1: GPT 输入不符合人类预期,那就加数据;OpenAI 找了一个标注团队人工的生成了一定数量的问答匹配数据,这些数据都是符合人类预期的,然后再此数据集上微调了 GPT-3.5 模型,我们称为模型 A

  • step2: 毕竟人工标记的数据还是比较有限的,如何提升?OpenAI 想到了强化学习,通过强化学习让模型 A 不断产生输出,然后通过判断输出的好坏,产生反馈 reward 来不断的优化模型 A,关键是如何判断输出的好坏? 于是就有了第 2 步,训练一个 reward model(我们称为模型 B),这里是通过 GPT 模型生成多个不同的回答,人工来判断各个答案的好坏排序,以此训练一个判别模型

  • step3: 有了判别 reward 模型 B,就可以进行强化学习了;通过强化学习让模型 A 不断产生输出,然后由判别模型 B 做出评判,产生反馈 reward 来不断的优化模型 A。


总结一句:ChatGPT = GPT-3.5 大语言模型 + 人工标注数据微调 + 强化学习


ChatGPT 从技术创新上似乎没有太大的亮点(这也是 Meta AI 的 LeCun 批评 ChatGPT 没有创新的一点原因),但是从工程和产品上 ChatGPT 又是现象级的产品,让 AI 真正和普陀大众联系起来。


再回到 ChatGPT 采用的技术点上,GPT 系列都是采用 Transformer 的 decoder 部分在大量的数据上训练而成,Transformer 最早由谷歌在 Attention Is All You Need 论文提出的开创性的神经网络架构。



后面大火的 BERT 和 GPT 都是基于此发展而来,其中 GPT-3 是一个超大的模型,模型参数就有 1750 亿个,训练的数据就有 4990 亿个 token,一个 mini-batch 的大小都有 320 万



所以 ChatGPT 训练贵在:


  • 要训练一个超大规模的语言模型(1750 亿参数)

  • 要有大量人力来帮忙标注数据,这也需要很大的成本

  • 微调和强化学习中超大规模的语言模型训练


那训练一个如此巨大的模型,到底要多少算力成本?


3. 训练一个 chatGPT 的算力成本

虽然 OpenAI 并没有明确说明训练 GPT 模型的算力成本,只说明了 GPT 是在微软的一个高性能集群上 V100 GPU 训练而成。而微软的这个集群是 Azure 上的独立的超级计算机系统,包含 28.5 万个 CPU 核和 1 万张 V100 GPU 卡。而英伟达复现 1750 亿参数的 GPT-3 的训练算力是 1024 张 80G 显存的 A100 卡,训练耗时为 34 天


从侧面反映,ChatGPT 的训练非常贵的,那换算成钱是多少?


可以从某些公有云的报价来看具体的成本




上面给了两个网上公有云的不同参数量的 GPT 模型的训练成本,基本上在百万到千万美元级别


4. 我们能做什么?

看到这里,你一定会直呼好贵,不仅好贵,而且用如此大数据训练一个如此大的模型也是一件难事,涉及许多工程上的技术,如分布式训练(模型和数据的分布式)。


只有资本雄厚的公司才有机会加入这个赛道,对于个人来说,重头训练一个 ChatGPT 是不太现实的。那我们能做什么?


正如世界上只有少数公司才能造出飞机,但却不妨碍我们去了解和挑选使用飞机一样,我们可以使用 ChatGPT 的服务来改变我们生活。


大家快来使用 ChatGPT 吧!

发布于: 刚刚阅读数: 5
用户头像

AIWeker

关注

InfoQ签约作者 / 公众号:人工智能微客 2019-11-21 加入

人工智能微客(aiweker)长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发

评论

发布
暂无评论
ChatGPT到底有多贵?| 社区征文_人工智能_AIWeker_InfoQ写作社区