写点什么

知行合一!AI 大模型与算法二三事

作者:深数
  • 2023-04-07
    上海
  • 本文字数:5063 字

    阅读完需:约 17 分钟

知行合一!AI大模型与算法二三事

具备超常智慧的人工智能就在我们的未来!与计算机相比,我们的大脑以蜗牛的速度运作:大脑中电信号的移动速度是硅芯片中信号的 1/100,000!数十年后,当开发人员能够泛化算法并以计算机的速度运行它,我们将拥有令人难以置信的强大的通用人工智能。它将能做人类大脑所能做的一切,且没有物理限制,这将是一场意义深远的变革——比尔·盖茨


人工智能作为当前最火热和高深的领域之一,充斥着大量的学术词汇和英文缩写。这些缩写包括代表深度学习算法、模型和工程的诸多词汇,如 DNN、CNN、RNN、GANs、AGI、Transformer、LLM、RLHF 等。对于人工智能领域内的从业人员来说,这些缩写可能只是日常工作中的一部分,但对于领域外的人来说,这些缩写所代表的含义和彼此之间的关系往往令人困惑。本文旨在梳理人工智能领域的常见名词、缩写,以及对应的概念和发展过程。


人工智能(Artificial Intelligence,AI)是指计算机系统能够表现出类似于人类智能的能力,包括学习、推理、自然语言理解、视觉感知等方面的能力。人工智能是一种计算机科学,它使用机器学习、深度学习、神经网络等技术来构建智能系统。目前,人工智能已经在各个领域得到了广泛的应用。例如,在医疗领域,人工智能可以用于疾病诊断和治疗计划的制定;在金融领域,人工智能可以用于欺诈检测和信用评估;在智能家居领域,人工智能可以用于控制家庭设备和提供智能化的生活体验。

通用人工智能(Artificial general intelligence,AGI)也叫强人工智能,是指能够像人类一样完成多种任务和活动的人工智能系统,具有高度的智能、适应性和创造性,可以从经验中学习和提高自身能力。通用人工智能系统能够像人类一样思考、理解、学习、推理、创造等,拥有与人类同等甚至超越人类的认知和智力水平。


与通用人工智能相对的是目前的弱人工智能(Narrow AI),它只能完成特定的任务和功能,如自然语言处理、计算机视觉、机器翻译等。这些弱人工智能系统虽然在特定领域内表现出色,但缺乏通用性和适应性。通用人工智能是人工智能领域的终极目标之一,也是非常具有挑战性的。尽管目前已经有一些人工智能系统在某些方面达到或超越了人类的表现,如深度强化学习、自然语言处理等领域,但要想实现真正意义上的通用人工智能,还需要解决很多技术难题,如对话系统、自我学习、自我意识等。虽然通用人工智能目前还没有实现,但它是人工智能领域的一个重要方向和发展趋势。通用人工智能的出现将会改变人类社会和经济的方方面面,带来前所未有的变革和机遇。


生成式人工智能(Generative AI)是指一种能够从数据中学习并生成新的、未曾出现过的内容的人工智能系统。生成式 AI 包括图像生成、文本生成、音频生成等,它们能够自主地生成新的数据,而不是只是对现有数据进行分类或推荐等任务。生成式 AI 是弱人工智能的一种,它是 AI 的进一步发展和深入。AI 的任务是让机器能够模拟人类的思维和行为,而生成式 AI 是 AI 中实现自主生成新数据的一种手段,也是实现 AGI 的一种可能路径或基石。目前的生成式 AI 还远未达到通用人工智能的水平,生成式 AI 能够从大量数据中学习并生成新的数据,但它们仍然无法像人类一样进行自我思考和创新,也不能像人类一样适应各种不同的情境和任务。

自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个分支,旨在让计算机能够处理、理解、生成和操纵人类语言。自然语言是人类在日常交流中使用的语言,它是一种复杂的信息载体,包含了语法、语义、语用等多个方面。NLP 的任务是利用计算机算法和人工智能技术,对自然语言进行分析、理解和处理,使计算机能够更好地与人类交互和沟通。NLP 的应用十分广泛,包括机器翻译、语音识别、文本分类、情感分析、知识图谱、自动问答系统、信息抽取、自然语言生成等方面。目前,NLP 技术已经被广泛应用于搜索引擎、智能客服、智能语音助手、自动化的文档摘要生成等领域,对于提高人机交互的效率和准确性具有重要意义。


大语言模型(Large Language Model,LLM)是指基于大量参数并使用深度学习算法训练出的具有超级文本预测能力的人工智能模型,能够自动学习自然语言的语法和语义规则,进而生成自然语言文本。随着近些年的算法及软硬件的快速发展,在自然语言处理(NLP)领域得到了广泛的应用。其历史可以追溯到二十世纪末期的神经网络技术,以下是大语言模型发展的主要阶段和里程碑事件:


1、神经网络发展(20 世纪 80 年代-90 年代):神经网络是大语言模型的基础技术之一,早期的神经网络模型如感知机和多层感知机被用于分类和识别任务,但其能力受到了限制。


2、卷积神经网络兴起(2010 年代初):卷积神经网络(Convolutional Neural Networks,CNN)一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习(Representation Learning)能力,能够按其阶层结构对输入信息进行平移不变分类。它的出现为图像和语音处理任务带来了重大的突破,深度学习开始进入大众视野。


3、递归神经网络出现(2012 年):递归神经网络(Recursive Neural Network,RNN)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络,是大语言模型中的重要技术,其可以处理序列数据,把前面的输出结果作为后面的输入,对语言模型训练有很大帮助。


4、LSTM 模型提出(1997 年-2014 年):长短期记忆人工神经网络(Long Short-Term Memory,LSTM)模型是 RNN 的一种变种,能够解决长期依赖问题,是目前最广泛应用的语言模型之一。


5、Transformer 模型问世(2017 年):Transformer 是一种基于自注意力机制的新型神经网络结构,可以在不考虑序列顺序的情况下对序列进行建模,大大提高了语言模型的效率和准确性。


6、GPT 模型发布(2018 年):生成型预训练变换模型(Generative Pre-trained Transformer,GPT)模型是由 OpenAI 发布的基于 Transformer 的预训练语言模型,可以在大规模的文本数据上进行训练,通过“自然语言生成任务”,兼容了几乎所有 NLP 问题,但同时期的 Bert(Google)比 GPT 方案表现好。凭借强大的预测能力,此时大语言模型已经开始吊打传统 NLP 模型。


7、GPT-3 模型推出(2020 年):该模型具有 1750 亿个参数,可以生成高质量的文本,并在多项自然语言处理任务上取得了领先的成果,其 in-context learning 能力,展示了和过往 ML 的 fine-tuning 模式的本质区别,仅经过简单调教就能吊打精调过的很多模型,GPT 模型的优势开始显现。


8、Codex 模型发布(2021 年):通过大量的现实代码训练模型,不光让模型能读懂和生成代码,同时解锁了对语言本身的理解和推理能力。Codex 论文中显示其代码数据量为 159G ,大约是初代 GPT-3 5700 亿训练数据的 28%,其所生成的 code-davinci-002 及其后续变体可以做思维链推理。


9、InstructGPT 模型推出(2022 年):在 in-context learning 基础之上,进一步降低了 prompting 的门槛,一定程度解决了 GPT-3 生成结果与用户期望不一致的非预期输出,大幅降低了有害的、错误或偏差的输出结果,让 GPT 更符合人类胃口。


10、RLHF 奖励模型(2022 年):基于人类反馈的强化学习(Reinforcement Learning From Human Feedback,RLHF)通过构建人类反馈数据集,训练一个 reward 模型,模仿人类偏好并对结果打分,是 GPT-3 后时代 LLM 越来越像人类对话的核心技术。


11、ChatGPT 推出(2022 年):基于 GPT3.5 模型,通过调整数据设置,并在微调的时混入语言建模,改进了零样本能力。简单来说,GPT-3.5 依靠 InstructGPT+Codex,“涌现”出了理解的能力,但缺乏与人类合适的交互方式。在 RLHF 的帮助下,才解锁了 GPT-3.5 和人类自然语言的接口。


12、GPT-4 模型推出(2023 年):GPT-4 较之 ChatGPT 在多方面都得到了提升,能提供强大的识图(多模态)能力,文字输入限制提升至 2.5 万字,回答准确性显著提高,能够生成歌词、创意文本,实现风格变化,在各种职业和学术考试上表现和人类水平相当。实验表明,GPT-4 能通过模拟律师考试,且分数在应试者的前 10% 左右。相比之下,GPT-3.5 的得分在倒数 10% 左右。


以上是大语言模型发展的几个主要阶段和重要事件,当下越来越多的大型企业参与到大语言模型的竞争中来,除了 OpenAI 的 GPT,Google、Meta 分布发布了 PaLM 和 LlaMa 大模型。回到国内,百度近期也发布了文心大模型,腾讯的混元、阿里的通义、华为的盘古大模型也都蓄势待发。未来随着技术的不断发展,大语言模型有望在更多领域发挥作用,为人类带来更多的便利和惊喜。


不难发现,大语言模型的发展离不开神经网络技术的进步和深度学习算法的不断优化。深度学习(Deep Learning)是机器学习的分支,是一种以人工神经网络为架构,对数据进行表征学习的算法。发展至今,已有数种深度学习框架,如深度神经网络、卷积神经网络和循环神经网络等,已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域,并获取了极好的效果。


深度神经网络(Deep Neural Network,DNN)是深度学习模型的基础,它是一种具备至少一个隐层的神经网络,多出的层次为模型提供了更高的抽象能力,能为复杂非线性系统提供建模,可以处理非常复杂的数据结构和大量的特征信息,常用于图像处理、语音识别、自然语言处理等任务。


卷积神经网络(Convolutional Neural Network,CNN)是一种经典的深度学习算法,主要用于处理图像和文本数据。在图像处理中,常用于图像分类、目标检测等任务。在文本处理中,常用于文本分类、情感分析等任务。残差网络(Residual Neural Network,ResNet)是一种深度卷积神经网络,用于解决神经网络退化的问题,可以训练更深的网络结构,在图像分类、目标检测领域表现更好。


循环神经网络(Recurrent Neural Network,RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络 。



DNN、CNN 和 RNN 是 DL 领域的三大经典算法,它们之间互有联系,又基于不同任务场景逐步演进。


  • DNN-->全连接 DNN 出现参数膨胀问题-->CNN 出现(卷积神经网络,参数共享)

  • DNN-->无法对时间序列进行建模-->RNN 出现(循环神经网络,普通的全连接网络或 CNN,是前向神经网络,RNN 可以直接将输出作为下一时间段的输入,深度是时间的长度)

  • RNN-->依然存在梯度消失的问题(发生在时间轴上)无法解决长时间依赖的问题-->LSTM 出现(长短时记忆单元,通过 cell 门实现时间上的记忆功能,防止梯度消失)后来又出现了双向 RNN,双向 LSTM,能能够同时利用历史和未来的信息


生成对抗网络(Generative Adversarial Networks,GAN)是近 2 年很热门的一种无监督算法,能生成出非常逼真的照片、图像甚至视频。在深度学习领域中,以 RNN 和 CNN 为首的监督和半监督学习算法,依赖经过大量人工标注的训练集,相对于学习过程,标注训练集的成本很高且效率很低。同时,人工判断生成结果(质检)也有成本高和效率低的问题。而 GAN 能自动完成这个过程,且不断的优化。GAN 主要由生成器(Generator)和判别器(Discriminator)两个部分构成,简单来说就是通过不断的循环对抗,逐步增强“生成器 G”和“判别器 D”的能力,最终训练出效果非常好的“生成器 G”。


深度强化学习 (Reinforcement learning,RL)并不是某一种特定的算法,是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解做纠正,仅通过自己不停的尝试来学会某些技能。其算法思路源于心理学中的行为主义理论,即让机器在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果,类似日常生活中的各种「绩效奖励」。


大语言模型是当今人工智能领域的热点之一,在越来越多的领域发挥着重要作用。在深度学习算法的支持下,大语言模型发展演进,从 Codex 到 ChatGPT,从 GPT-3 到 GPT-4,每一个阶段都在突破和创新。除了 GPT,还有 PaLM、LlaMa、文心等大型语言模型,各大企业也在竞争中不断发力。随着技术的不断进步,大语言模型有望在更多领域发挥作用,为人类带来更多的便利和惊喜。而深度学习作为大语言模型的基础,也在持续改进,DNN、CNN、RNN、GAN 等各种算法相互交织,不断提高着机器学习的水平。


总的来说,大语言模型和深度学习算法的发展,为人工智能的发展注入了强大的动力,也为人类创造出了更多的可能性。相信在不久的将来,我们将看到更多基于大语言模型和深度学习算法的应用,让我们一同期待这个数字时代的未来。

发布于: 刚刚阅读数: 5
用户头像

深数

关注

还未添加个人签名 2023-02-21 加入

还未添加个人简介

评论

发布
暂无评论
知行合一!AI大模型与算法二三事_深度学习_深数_InfoQ写作社区