写点什么

AI 的“道德感”如何训练而来(2)

作者:石君
  • 2023-11-30
    北京
  • 本文字数:4254 字

    阅读完需:约 14 分钟

AI 的“道德感”如何训练而来(2)
  1. 卷积神经网络 (CNN) :CNN 是一类最常用于图像分析的深度神经网络。通过卷积核矩阵卷积、池化、连接,保留输入图像特征,变成供匹配的模型。卷积说白了就是“加权求和”,数字表征,抽取特征、建模、识别特征。比较常见的 CNN 有 1989 年贝尔实验室提出的、用于识别图像中手写数字的 LeNet,2012 年出现的、用于图像识别的 8 层神经网络 AlexNet,2015 年出现的图像语义分割里程碑之作 FCN,2017 年 Google 提出的、用于移动终端或嵌入式设备的轻量级 CNN 网络 MobileNet 等。CNN 出现的如此之早,还是源于一个朴素的动机,想让机器看懂图片,哪怕看完之后说个 yesorno 也可以。

  2. 循环神经网络 (RNN) :CNN 只能处理单独的输入,但某些任务需要提取输入之间的时序信息,例如对一句话的理解,孤立的理解一句话的每个单字是不够的,还需要将单字按照顺序连接起来。RNN 就是用于处理序列数据的神经网络,在自然语言处理、音频处理等领域被广泛应用。RNN 不同于 CNN“输入层→隐藏层→输出层”结构,其隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。比如下图中的 ht,是模块 A 在读取了 xt 和 h(t-1)之后产生的。进一步的,RNN 可以看作是同一个神经网络结构被无限复制的结果,在时间维度上不断扩展,从而能够使用有限的参数处理任意长度的序列。为了改善 RNN 循环体(也就是 A)的质量,又出现了 LSTM、GRU、双向 RNN、深层 RNN 等模型。有了语言模型,就可以通过预测的方式,在给定一段初始文本的情况下,选择概率分布最大的下一个单词,或加入随机采样参数增加随机性,不断自回归生成下一个单词,直至结束。是不是有点 chatGPT 的影子了?


  1. 生成对抗网络 (GAN) :2014 年出现的 GAN 也是想要解决图像识别(生成)问题的, 它使用两个神经网络生成器 generator 和判别器 discriminator 来工作,自我提高图像识别能力和生成能力。受过照片训练的 GAN 可以识别照片的真伪,或生成新照片,这些照片在人类观察起来是“真实”的。生成器是任意可以输出图片的模型,采用最简单的全连接神经网络或者是反卷积网络都行,输入为 n 维度向量,输出为图片。判别器是任意的判别器模型,采用全连接网络或者 CNN 都行,输入为图片,输出为生成图片的真伪标签或与样本图片近似的生成图片。如下图所示:黑色虚线表示真实样本分布情况,蓝色虚线表示判别器判别概率的分布情况,绿色实线表示生成样本的分布情况,Z 表示噪声,Z 到 X 表示通过生成器之后的分布的映射情况。目标是使绿色实线拟合黑色虚线,达到以假乱真的目的。


  1. 深度信念网络 (DBN) :上面讨论的神经网络,虽然学习​​算法​​不同,但基本上​​架构​​还是相同的,都是分层网络,按层进行组织,层内神经元无连接,层间神经元间有连接。这些网络出现了模型参数数量迅速增长、训练时间过久、陷入局部最优、不能解决小样本训练问题等情况。2006 年神经网络之父 Geoffrey Hinton 开发出 DBN,解决了上述问题,DBN 是一种不同于 CNN 结构的神经网络,由没有层次关系的神经元全连接网络进化而来。DBN 网络结构限制为两层:可视层和隐层,层与层之间存在连接,但层内的单元间不存在连接,隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。进化路径为:玻尔兹曼机(BM)→限制性玻尔兹曼机(RBM)→深度信念网络 (DBN)。DBN 可以看作是多个 RBM 串联起来的结构,在训练时最下面为第一层结构,相邻两层构成一个 RBM,必须充分训练 RBM 后才能训练下一个 RBM。DBN 是一种生成模型,通过训练神经元之间的权重,让整个神经网络按照最大概率来生成训练数据,不仅可以使用 DBN 来识别特征,分类数据,还可以用它来生成数据(用到了 GAN 的知识)。DBN 的出现,解决了深层次神经网络的优化问题,通过逐层训练为整个网络赋予较好的初始权值,使得神经网络只要通过微调就能达到最优解。


  • 强化学习

强化学习(RL,reinforcement learning)是这样一个过程,如果 agent(探针,下图大脑)采取的 action(行动)对 environment(环境,下图地球)产生了好的 state(结果),则给出 Reward(奖励),如果导致不好的 state,则给出 0 或负反馈;同时,agent 还能够接收当前环境的一个 observation(观察),对于 agent 来说,是两个输入一个输出,对于 environment 来说,是一个输入两个输出。从分类上来讲,强化学习是一种不同于有监督、无监督的学习方法(按照这一分类方法,上面讲的深度学习其实是一种使用了有监督或无监督技术的机器学习方法),是一种边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步行动,下一步行动获得 reward 之后再更新模型,不断重新更新。RL 中的两个非常重要的概念是 exploration(探索)和 exploitation(开发),exploration 是指选择之前未执行过的 actions,从而探索更多的可能性;exploitation 是指选择已执行过的 actions,从而对已知的 actions 的模型进行完善。强化学习让模型具有超人类的表现(这应该就是“道德感”的主要来源),监督学习的上线就是人类表现的上线,因为标签是人工标注的,但强化学习可能产生超越人类的能力表现。比如雅达利 3 游戏、AlphaGO 等。policy based(策略函数,决定下一步行为,采样或最大化)、value based(价值函数,是未来奖励之和在当前的折现,可以确定最优的 action)、model based(预测 environment 的下一个状态、下一个奖励),有了这三个函数,就形成了一个 MDPs(马尔可夫决策),这是具体算法层面的事情了。



基本概念就理解到这里,下面我们来看一下上文新闻通告中提到的其他关键词。

二、有干预的增强

到这里我突然发现我上面的分类有问题,深度学习并不是一种独立的机器学习方法,不应该与有监督学习、无监督学习、强化学习这些基本方法并列。深度学习综合利用了这些方法,也因此继承了它们的能力,如分类、聚类、产生新的图片/文字等。

深度学习产生的模型可以分为两类,1 是判断,用于分类、预测、训练标签数据集、学习数据特性与标签的关系,2 是生成(Generative,也就是 AIGC 中的 G),用于产生新数据、理解给定的数据、预测接下来的单词。



这也是为什么要对 AIGC 进行干预的原因了,因为它真的可以自己说话啊。

有监督精调、人类反馈的强化学习、提示这三项技术是通用的对话模型都会用到的,知识增强、检索增强和对话增强是百度所谓创新技术,以上都是干预技术。

  • 精调:

1、有监督学习我们知道了,什么是有监督精调(SFT,supervised fine-tuning)?

基本原理是使用目标任务的训练集对已经得到的预训练模型进行微调。通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好。

2、根据 OpenAI 工程师介绍,在这个阶段他们会更换训练使用的数据集,原本是对互联网文档进行训练,现在则转用手动收集的数据集。收集这些数据的方式是雇佣大量标注工程师,要求他们提出问题,再为这些问题写出答案。举例如下:


你能简要介绍一下“垄断买方”这个属于在经济学中的相关性吗?


标注工程师就会根据标注指南编写理想的回复、如何定义它,以及它应该是什么样子。OpenAI、Anthropic 会制定标注文档。下面是一则国内标注公司的操作界面示例,可以看到地理知识这里主要单词都加了标注:


还发现了数据标注规程团标《T/CESA 1040-2019 信息技术 人工智能 面向机器学习的数据标注规程》


5.7.2 文本类型的数据

文本类标注任务的数据结果包含文本标签的位置和标签的具体内容。不同标注任务和要求会产出不同的结果,但不影响定义数据格式及组成部分。

标注文件的输出格式推荐使用易解析、易存储的数据格式,包括 json 、 xml 、 txt 等。标注文件应该包含详细的标签信息。每个独立标签应包含以下信息:

a)标签 id:每个标签的独立编号;

b)文件路径:待标注文本的文件链接;

c)原始文本:待标注文本的全部内容(文本标注任务仅需提供文件路径或原始文本中的一个);

d)置信度:为标签的置信度;

e)每个标签中可能包含多个对象,对于每个对象需要定义:

1)对象类型:比如 text _ classification 或者 text _ tag ;

2)对象详情:对象的具体文本位置和内容信息,或与其他对象的关系信息。


3、这一阶段更注重质量而非数量,可能只有很少的文档,比如 10 万份,这些文档都是基于标注指南创建。这一阶段仍会利用海量互联网数据预训练阶段积累的知识,但会将格式从互联网文档转变成问答形式,像一个助手一样。微调之后得到这样的“助手模型”,通过对这一模型进行监控,收集不当内容,找到有问题的对话,人工修订给出正确的回应,替换掉之前错误的回应,这个正确的回应就会作为一个例子被加入到训练数据中,通过这一流程迭代改善模型。由于微调成本较低,可以每周或每天进行这样的操作。

两阶段的区别如下:


4、虽然没有找到文心一言微调的过程和操作界面,但从信息安全标准化技术委员会 10 月份发布的《生成式人工智能服务安全基本要求》(征求意见稿)来看,生成内容安全的评估需要涵盖全部 31 种安全风险,包括:

1 包含违反社会主义核心价值观的内容

包含以下内容: a)煽动颠覆国家政权、推翻社会主义制度;b)危害国家安全和利益、损害国家形象;c)煽动分裂国家、破坏国家统一和社会稳定;d)宣扬恐怖主义、极端主义;e)宣扬民族仇恨、民族歧视;f)宣扬暴力、淫秽色情;g)传播虚假有害信息;h)其他法律、行政法规禁止的内容。

2 包含歧视性内容

包含以下内容: a)民族歧视内容;b)信仰歧视内容;c)国别歧视内容;d)地域歧视内容;e)性别歧视内容;f)年龄歧视内容;g)职业歧视内容;h)健康歧视内容;i)其他方面歧视内容。

3 商业违法违规

主要风险包括:

a)侵犯他人知识产权;

b)违反商业道德;

c)泄露他人商业秘密;d)利用算法、数据、平台等优势,实施垄断和不正当竞争行为;e)其他商业违法违规行为。

4 侵犯他人合法权益

主要风险包括: a)危害他人身心健康;b)侵害他人肖像权;c)侵害他人名誉权;d)侵害他人荣誉权;e)侵害他人隐私权;f)侵害他人个人信息权益;g)侵犯他人其他合法权益。

5 无法满足特定服务类型的安全需求

该方面主要安全风险是指,将生成式人工智能用于安全需求较高的特定服务类型,例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等,存在的:

a)内容不准确,严重不符合科学常识或主流认知;b)内容不可靠,虽然不包含严重错误的内容,但无法帮助使用者解答问题。


推测文心一言在 SFT 过程中,抽样对文本数据进行了内容安全风险打标,且样本数量巨大。


(系列文章接下来会介绍的内容有提示、RLHF、知识/检索/对话增强等技术内容)

发布于: 刚刚阅读数: 11
用户头像

石君

关注

与其更好,不如不同 2020-03-26 加入

分享孤独,成为故事,分享思考,成为思想。 做信息安全领域的探险家。

评论

发布
暂无评论
AI 的“道德感”如何训练而来(2)_AIGC_石君_InfoQ写作社区