写点什么

大模型系列 1:大模型是个啥?

作者:CoderBreakout
  • 2023-10-23
    广东
  • 本文字数:908 字

    阅读完需:约 3 分钟

大模型系列1:大模型是个啥?

今天团队里有小伙伴提问:从一个系统开发的角度理解,大模型是个啥?因为小伙伴都是做系统开发的,对模型没有什么概念,我尝试做一个回答。


首先说说模型是什么?模型是对人类知识和经验的提炼。从工程的角度理解,模型也是一个程序,这个程序可以由人直接编写(例如一个 python 计算公式),也可以由另外一个程序生成。后一种方式,由一个程序生成另外一个程序的过程,称为“模型训练”。GPT 的全称是:Generative Pre-trained Transformer,中文全称是:生成式预训练转换模型。GPT 是使用深度学习、强化学习、Transformer 等技术处理大量数据后生成的一个模型。因为训练 GPT 使用的语料非常巨大,因此被称为“大语言模型”


ChatGPT 是将 GPT 用于聊天场景的一个应用。你可以把 ChatGPT 看成是一本压缩率极高的书,你问他一个问题,它可以根据你提问的角度,提取相应的知识作为答案输出给你。大模型还可以用于其它的领域,例如图像生成的应用 Midjourney 等。


大模型是一个程序,但和一般的应用程序固定输入和输出不同,它具备高度的动态性。你可以给它一个任意的输入,它会尽力输出一个最“靠谱”的答案。背后的原理,简而言之,就是 GPT 首先把知识高度压缩在数据库,然后通过一个提取算法,从概率的角度生成一个它认为最靠谱的答案。由于这个输出答案的过程是逐字输出的,每个字的输出都依赖于前面生成的字,因此这个过程被称为“生成式”的。


大模型还可以被定制。从头训练一个大模型需要大量的人力物力,一般人根本负担不起,因此训练一个大模型都是大公司的游戏。但如果你有足够的钱,从头训练一个大模型可以让你从最底层做出差异化特色。对于一般的小公司和个体,最好的办法就是基于一个别人已经训练好的模型,例如 chatglm,然后通过逐步调整其参数的权重,使得模型在某个领域更加胜任,从而得到一个新的模型。因此选择一个好的基础模型进行调优就很关键了。目前有很多开源的大模型可以使用:llama、chatglm、通义千问、百川等。


以上是从一个系统开发的角度解释大模型是什么的大白话。大模型背后的实现原理是很复杂的,幸运的是探索过程中如果我们有什么不懂,可以去问大模型!让大模型自己解释自己,会是一种怎样的学习体验?(嘿嘿)

发布于: 刚刚阅读数: 6
用户头像

CoderBreakout

关注

还未添加个人签名 2008-10-08 加入

还未添加个人简介

评论

发布
暂无评论
大模型系列1:大模型是个啥?_大模型_CoderBreakout_InfoQ写作社区