写点什么

对大模型和 AI 的认识与思考

作者:AIWeker
  • 2023-12-13
    福建
  • 本文字数:3893 字

    阅读完需:约 13 分钟

对大模型和AI的认识与思考

1. 写在前面

自从 OpenAI 在 2022 年 11 月 30 日发布了引领新一轮 AI 革命浪潮的产品 ChatGPT 以来,大模型和生成式 AI 这把大火在 2023 年越烧越旺,各种技术和应用层出不穷;而 2023 年 11 月,同样是 OpenAI CEO 山姆·奥特曼(Sam Altman)被开除后有回归,这 100 小时的宫斗赚足了媒体和世界网名的关注,引出了大家对 AI 安全的遐想和担忧。


以 OpenAI 开始,以 OpenAI 收尾,至此已经一年有余了。这一年 AI 做出了令人瞩目的成绩,确似乎才刚刚开始。我、我的朋友、我的同事以及网络上的网友,都切实可行的从 AI 技术上获得了效率和便捷性大幅度提升的好处。


做为一名技术人,在 2023 年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到 prompt 工程实践和搭建文生图(Stable Diffusion)webui 实操环境。在此对谈谈对大模型和 AI 的认识与思考,是为总结。

2. 生成式 AI 元年

2023 无疑是生成式 AI 的元年,英伟达的 CEO 黄仁勋曾说过:人工智能已经到了 iPhone 时刻;或许离真正的 AGI 还有一定的距离,但 AI 确实展现出人类基本常识和推理的能力,特别是模型越来越大的加持虾出现的涌现能力。就在最近 Google 发布最新人工智能模型 Gemini,声称性能超越 GPT-4 和人类专家,从宣传视频上看,Gemini 已经具备人类的视觉(图像识别),听觉(语音识别)和自然语言理解的基本技能。


我们一起来回顾下生成式 AI 的发展。

2.1 GPT 的发展

如果说大语言模型存在一个分水岭的话,我觉得是 2017 年 Google 提出了一种全新的模型 Transformer,Transformer 是典型的 encoder-decoder 结构,最早是用来做机器翻译的。Transformer 中最重要的结构是 Multi-Head 的 Self-Attention 机制。在 Transformer 之前,自然语言处理(NLP)一般采用循环神经网络 RNN,以及变种如双向的 RNN、LSTM 和 GRU 等,但都存在一定的问题,如长文本序列上下文遗忘,难以并行等,而 Transformer 较好的解决了这些问题。



Transformer 推出之后,被循序了应用到自然语言处理的各个领域,同样也在机器视觉领域和传统的 CNN 一较高下,并拔得头筹。Transformer 的火爆可见一斑,值得一提的当前 Transformer 的几个作者都开始加入大模型创业浪潮,虏获资本的厉害,如 Adept、Essential AI、Cohere。



说回到 Transformer 的生态树,Transformer 之后,出现了三个较大的分支:


  • 一个是以 BERT 为代表的以 decoder-only 的模型,还有百度的 ERNIE

  • 另一个是以 GPT 为代表的 encoder 模型,还有谷歌的 Bard,claude,cohere,百度的 ERNIE 3.0(当前的文心一言)

  • 第三个分支则是 encoder+decoder 的模型(就是整个 Transformer),这里有清华系的 GLM 和 chatGLM,还有谷歌的 T5,Meta 的 LLAMa




BERT 以完形填空的方式开启的大语言的预训练模型之路,一个 pre-trained Model 可以快速的迁移后下游的任务。而 GPT 走的是另外一条更艰难的道路,生成式模型,预测下一个词,一开始 GPT1 性能不如 BERT,于是 GPT 开始了大,更大,最大的模式,从 GPT1 的 1.17 亿参数量到 GPT3 的 1750 亿参数量,开始了大力出奇迹的真正大模型之路。



在 GPT3 中,使得提示(Prompt)的重要性越来越被重视,逐步变成当前的 Prompt Engineering。Prompt engineering 是创建提示或询问或指导像 ChatGPT 这样的语言模型的输出的指令。它允许用户控制模型的输出并生成文本根据他们的具体需求量身定制。如何有效清晰明确的表达你的意愿,对于使用大模型是至关重要的。



在 GPT3 之后,OpenAI 做了不同的调优,如针对代码的 Codex,特别是 InstructGPT 引入了强化学习的机制来使得大语言模型的生成结果和人类进行对齐,而 ChatGPT 是在此基础上加入了有监督的学习指导,可以说是更强的对齐(OpenAI 最近成立 SuperAlign 超级对齐部门专门解决 AI 和人类的对齐问题)。至此 ChatGPT 问世,GPT4 则加入多模态使得 GPT 可以有处理图像的能力。


2.2 开源 GPT

我们知道,OpenAI 在 GPT3 之后就采用封闭的方式不公开代码和模型,只提供 API 来供使用。谷歌的 Bard 和 PaLM 也是封闭的。国外大厂里只有 Meta 提供了大模型的开源,如 OPT、BLOOM、LLaMa。


开源社区也针对公开的模型,训练更小的模型,并希望和 GPT 性能对齐。比较早期的有斯坦福大学的 Alpaca(羊驼),清华系的 ChatGLM-6B,复旦 MOSS,Vicuna-13B 和 mini-GPT4。


当然后续国内外也有公司开源了较小的模型,如百川 2-13B,通义千问-72B(Qwen-72B)等,这些模型都可以在 modelscope 上下载获得。


感谢开源!

2.3 国内的 GPT 们

在 ChatGPT 爆红之后,国内的大厂们也开启 GPT 模式,进入百模大战模式。百度的文心一言先开始拉开序幕,还有阿里云的通义千问,华为盘古,商汤日日新,360 的 360 智脑,京东的言犀大模型,腾讯的 HunYuan 大模型,科大讯飞的讯飞星火,还有 chatGLM 的智谱清言。


大家都在追赶 GPT,目前看百度的文心一言 4.0 是比较接近 ChatGPT,当然如何有效的评测大模型的性能也是一门学问,可以参考 Holistic Evaluation of Language Models。

2.4 文生图赛道

今年除了 ChatGPT 这个语言生成模型比较火之外,另一个比较火的生成式 AI 就是 Text-to-Image 文生图。就是通过文字描述来生成一个和文字描述相关的图片。


Text-to-Image 的代表应用是 Midjourney,还有 OpenAI 的 DALE-2 和 DALE-3,以及开源的 Stable diffusion。




文生图可以通过文字描述来生成逼真的图画,这让许多没有绘画基础的人们带来了福音,只要你有想象力就可以。同时,文生图还开始席卷了需要图片的行业,比如游戏原画设计,logo 设计,电商模特,海报设计,视频剪辑等等。


AI 生成图片可以追溯到 VAE,GAN,而当前最流行都是 Diffusion 扩散模型,这些事图生图的范式。



而文生图,就是在图生图之前加入文本的 encoder,并加入图生图的过程,来影响图片的生成,借用李宏毅老师的一个框架,著名的 DALE-2 和 Stable diffusion 以及谷歌的 Imagen 都是套用此方法。


3. 大模型和 AI 应用和思考

如果说以大模型为代表的 AI 模型是人工智能的 iphone 时刻的话,那么 iphone 的 APP 有哪些?这或许是作为开发者的一个新的机会,在最近的 OpenAI 开发者大会上,OpenAI 发布了 GPTs 和 GPT store,通过 GPTs 人们可以构建自己的应用,而 GPT store 是针对垂直领域的大模型微调版本。另外一种形象的说法是大模型是底座操作系统,而运行上在这平台上的软件和 app 才刚刚开始,是为机会。毕竟大模型的训练是需要很大成本的,而开发一个 APP 是有可能的。


那我们如何利用这个大模型呢?

3.1 效率提升,解决业务痛点

通过分析下当前业务中的痛点和效率低下的环节,评估下是否接入成熟 AI 工具如 ChatGPT 或者文生图,当然也要考虑成本因素。这是当前比较主流的应用方式。比如游戏设计中的原画设计,可以接入 Midjourney 来做初稿和创意设计,来大大加快效率;视频或者文字内容创造者,可以用 ChatGPT 来文案设计,用 Midjourney 来插画或者视频素材;培训工作者如教师可以用 ChatGPT 来做备课工具,提升效率。


这个阶段注重和自身业务的契合点,直接使用工具解决问题。

3.2 提升易用性,做垂直应用

当前大模型的一个重要的环节是 prompt(提示),不同的 prompt 可以有截然不同的结果,这个也是当前大模型使用的一个门槛。如何提升工具的易用性,是一个值得关注的方向。


  • prompt 分享平台:分享不同的 prompt 展示平台,甚至拿 prompt 做为产品来销售,以及 prompt 培训

  • 能不能只写简单的 prompt 就能有很好的结果,比较典型的就是做垂直领域的应用,总结垂直领域特别的 prompt 作为潜在的 prompt 添加到使用者的 prompt 之后进行简化使用

  • 垂直领域应用:用产品思维的方式,分析垂直领域的特点,综合大模型和其他领域知识,打造更加智能化的垂直应用


这个阶段注重易用性的提升, 封装工具成特定领域的工具解决问题。

3.3 AI Agents

AI Agents 无疑是未来新的发展方向,AI Agents 在大模型的基础上,结合其工具和知识来扩展大模型的能力,使得大模型能够拆分任务,联网分析,使用工具等。以 AugoGPT 以开始,如何将大模型功能扩展到更大的领域,如何做任务规划,存储记忆,以及使用工具;以及制作 AI Agent 的平台工具,这也是提升便利性的方向。



除了 autoGPT,langchain 也是一个 AI-agents 的开发框架,同时也可以开发定制的知识库,同时也带动了向量数据库的发展,如 Milvus,faiss 等。

3.4 产品性思维

如何依托大模型来开发 APP,最重要的是产品性思维;有哪些痛点,要解决什么问题。充分分析和挖掘需求,并结合大模型的能力,开发 MVP 最小可行产品,快速验证试错。比如 chatMind 是结合 chatGPT+思维导图,GPTcache 是节省 chatGPT 开销。大模型 App 的开发还在早期,要抓住机会。

4. AI 安全

据传 OpenAI 这次 100 小时的宫斗,是因为 OpenAI 的首席科学家 Ilya Sutskever 对 AI 发展过于激进和 AI 安全的担忧。


说到 AI 的安全性,狭义上看 AI 或者生成式 AI 是否生成对人类有害的内容,比如是否包含种族歧视,性别歧视,暴力色情内容等,这也是当前评测大模型性能的一个方面。从广义上说,AI 的安全性就广大到 AI 是否威胁人类的生存,AI 会不会像影视剧中一样出现意识,毁灭人类。


到底会不会发生 AI 毁灭人类呢?不知道。不过可以讲一个实例,我们知道训练 AI 是通过拟合一个优化目标来完成的,这个目标是人类设定;比如我们训练 AI 和人类下棋对弈,而目标就是赢棋,AI 可以通过多种手段来达到这个目标,我们希望 AI 通过学习大量棋谱和自我对弈来达到赢棋的目标,而 AI 可能另辟蹊径:那就是直接杀死和它下棋的人类来达到赢棋的目标,这就是激励扭曲。


我们如何能够更好的让 AI 和人类价值观做更好的对齐,使得 AI 的方式和人类相同,这也许是 AI 安全的一个解决方案。


以上是为总结,2023 马上就要过去,我很想你它,我更期望崭新的 2024 和新的机遇。

5. 参考

  • attention is all you need

  • Language Models are Few-Shot Learners

  • Harnessing the Power of LLMs in Practice A Survey on ChatGPT and Beyond

  • 符尧:拆解追溯 GPT-3.5 各项能力的起源

  • LLM Powered Autonomous Agents

发布于: 刚刚阅读数: 5
用户头像

AIWeker

关注

InfoQ签约作者 / 公众号:人工智能微客 2019-11-21 加入

人工智能微客(aiweker)长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发

评论

发布
暂无评论
对大模型和AI的认识与思考_AI_AIWeker_InfoQ写作社区