写点什么

根据人类反馈进行强化学习的 5 大关键步骤

作者:澳鹏Appen
  • 2023-09-27
    上海
  • 本文字数:1746 字

    阅读完需:约 6 分钟

根据人类反馈进行强化学习的5大关键步骤

强化学习是一种强大的工具,它让机器能够从环境中学习并根据奖惩做出明智的决策。如果我们在强化学习中加入人类干预,情况会怎样呢?


这便是当今最具潜力的技术之一——根据人类反馈进行强化学习(RLHF)。本期澳鹏干货,我们将深入介绍 RLHF 涉及的 5 大步骤,并探索它将如何改变技术和商业的游戏规则。


第 0 步:定义问题空间

Defining Your Problem Space


RLHF 依赖于人类的反馈对模型加以相应训练。这意味着必须考虑所有性别、年龄、语言、领域专长、社会和文化背景以及各行各业人员的观点。


为确保 AI 应用没有偏见,必须精心组织多元化的众包资源,以便在训练模型和评估结果时能够使用人类判断,尤其要让边缘化群体也参与其中。


澳鹏 Appen 在组织和管理多元化 AI 训练众包资源、提供清晰的指导方面拥有超过 25 年经验,是负责任地构建生成式 AI 应用的可靠合作伙伴。通过仔细考虑各方观点和潜在影响,我们能够充分发挥 RLHF 的潜力,创建既有效又合乎道德的 AI 应用。


第 1 步:从预先训练的模型开始

Start with a Pre-trained Model


第一步的预训练模型,可以从 Open AI 或微软等开源提供商处获得,也可以从头开始创建。从预先训练的模型开始通常是有效的方法,能够通过提供适当的问题和回复来针对特定用例微调模型。


问题生成的过程是一个关键环节。通过提供初步问题数据集,可以指导模型生成与上下文相关且一致的输出,确保模型生成的输出准确且符合目标,为 RLHF 的后续步骤奠定基础。


第 2 步:监督式微调

Supervised Fine-Tuning


监督式微调是大语言模型及生成式 AI 应用开发的关键一步。在此步骤中,预训练模型的权重会根据新数据进行调整,使其能够为特定任务生成更准确、更相关的输出——即先提出问题,再由 AI 训练专家创建模型应给出的预期回复,并使用特定领域数据微调模型。


微调不仅提高了大语言模型的效率和准确性,并有助于减少偏差,确保模型输出符合任务的预期结果。在这一领域,澳鹏 Appen 可充分利用不同领域的数据专长,通过高质量微调使得系统对于真实世界的应用更为有效。



第 3 步:奖励模型训练

Reward Model Training


奖励模型训练是一种 RLHF 高级技术,它需要训练一个模型来识别另一个模型创建的期望输出,并根据预期结果的相关性和准确性打分。


这一过程需要分别训练奖励模型与生成模型,并使用奖励模型的分数作为反馈来微调生成模型,以产生更理想的输出。奖励模型训练也可以通过提供一个明确的目标函数来帮助解决偏见和道德问题。


AI 训练师可以通过澳鹏 Appen 平台提供的数据来更新奖励模型,并确保 LLM 生成的输出满足手头任务的预期结果。


第 4 步:近端策略优化(PPO)

Reinforcement learning via proximal policy optimization (PPO)


通过近端策略优化(PPO)进行的强化学习是一种算法,它训练大语言模型,使之产生通过反复试验最大化奖励信号的输出。在这种方法中,模型与环境互动,并接收奖惩形式的反馈,从而能够了解哪些动作会产生期望结果。


通过 PPO 进行的强化学习使模型能够从经验中学习并实时适应新的情况。这使其适用于预期结果可能难以定义或随时间变化的应用,例如游戏、机器人或自然语言处理等。


使用精心安排的多元化数据审核员持续对系统进行压力测试,可以使其像人类一样学习和进化。这样做可以帮助模型产生不仅准确和相关,并且符合人类价值观、道德和公平要求的输出。


第 5 步:红蓝对抗

Red teaming


红蓝对抗是 RLHF 过程的关键环节,因为它允许人类评估员对生成式 AI 模型的性能做出真实的反馈。通过红蓝对抗,可以在各种场景中测试生成式 AI 模型的准确性、相关性和一致性。


构建负责任且公正的生成式 AI 应用对于在现实环境中成功实施至关重要。澳鹏 Appen 在组织和管理多元化众包资源、提供有意义的指导及分析数据结果方面的专长,使我们成为负责任地构建生成式 AI 应用的可靠合作伙伴。对于构建造福社会的生成式 AI 应用,澳鹏 Appen 将助您在自己的专业领域产生可持续的积极影响。


澳鹏 Appen Limited (ASX:APX) 是全球高质量图像、文本、语音、音频、视频等 AI 训练数据服务提供商,拥有业内先进的人工智能辅助数据标注平台、一体化的 AI 数据及资源管理平台及全球 100 多万名技能娴熟的众包资源,支持 235+种语言和方言。澳鹏 Appen 的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的创新者提供优质、安全、高效的服务。澳鹏 Appen 成立于 1996 年,客户和办事处遍布全球。

发布于: 18 分钟前阅读数: 8
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
根据人类反馈进行强化学习的5大关键步骤_大模型_澳鹏Appen_InfoQ写作社区