RLHF 如何赋能生成式 AI

作者：澳鹏Appen

2023-07-19
上海
本文字数：1510 字
阅读完需：约 5 分钟

构建生成式 AI 的竞赛正在不断加速——ChatGPT 彻底改变了人机交互方式，而这要归功于根据人类反馈进行强化学习技术（RLHF）。

ChatGPT 之所以成为可能，是因为 OpenAI 将大量人类反馈整合到 AI 模型中，以强化模型的良好行为。本期我们就来聊一聊日益成为 AI 模型训练过程关键一环的 RLHF。

人机协同比以往任何时候都更重要

Human-in-the-loop more vital than ever

从早期“AI 军备竞赛”中吸取的经验教训，应该成为世界各地从事生成式 AI 项目的从业者指南：人机协同比以往任何时候都更重要，它通过最大限度地减少 AI 模型的偏见和幻觉，确保一致性，维护品牌完整性。

那么，我们如何才能收获这些生成式 AI 应用的突破性成果，同时又能确保它们有用、诚实且无害？

这一问题的答案在于 RLHF，尤其是持续有效的人类反馈协同，以发现生成式 AI 模型中的偏差。在理解 RLHF 对生成式 AI 模型的具体影响之前，让我们先深入了解它的实际意义。

人类在强化学习中扮演什么角色？

Humans' role in reinforcement learning?

要理解强化学习，首先需要理解监督式学习和非监督式学习的区别：监督式学习需要经过标注的数据，模型在这些数据上进行训练，以学习在现实生活中遇到类似数据时的行为方式；而在非监督式学习中，模型全靠自己学习，可以在数据未标注的情况下推断规则和行为。

使生成式 AI 成为可能的模型使用的是非监督式学习。我们需要教会这些模型人类的需求和期望。这就是 RLHF 的用武之地。

强化学习是一种强大的机器学习方法，它通过反复试错来训练模型以解决问题。优化输出的行为会得到奖励，没有优化输出的行为则会受到惩罚，并重新进入训练周期中以便进一步完善。

RLHF 需要大量不同的人向模型提供反馈，这有助于减少事实错误，并根据业务需求定制 AI 模型。随着人类加入反馈循环，人类的专业知识和同理心就可以指导生成式 AI 模型的学习过程，从而显著提高其整体性能。

RLHF 如何影响生成式 AI?

How RLHF has an impact on generative AI?

随着 RLHF 的发展，AI 将更有可能满足用户的期望。例如，聊天机器人将从 RLHF 训练中大受裨益，因为人类可以教会模型识别模式，理解情绪信号和要求，这样，企业就可以用可靠的答案提供出色的客户服务。

除了训练和微调聊天机器人，RLHF 还可以用于生成式 AI 的其他方面：例如，改进 AI 生成的图像和文本，做出金融交易决策，为个人购物助理提供支持，甚至帮助训练模型更好地诊断病情等。

最近，ChatGPT 的双重性在教育界有所体现。尽管对抄袭的担忧有所增加，一些教授也在将该技术作为教学辅助手段，通过个性化教育和即时反馈帮助学生，激发他们学习中的好奇心和探索精神。

为什么强化学习具有道德影响

Reinforcement learning has ethical impacts

RLHF 能让互动从普通的交互转变为奇妙的体验，实现重复性任务的自动化，并提高生产力。然而，其最深远的影响将是 AI 的道德。这也是人类反馈对于确保生成式 AI 项目成功的关键作用。

AI 不理解其行为的道德影响。因此，作为人类，我们有责任尽可能积极有效地识别生成式 AI 中的道德差距，并加入反馈循环，训练 AI，使之更具包容性，并消除 AI 偏见。

强化学习通过有效的人机协同监督，将帮助生成式 AI 在各行各业更加负责任地发展。让 AI 成为世界上一股向善的力量是一种道德义务，而履行这种道德义务首先要迭代不良行为、强化良好行为。

在 AI 行业，我们正处于一个既令人兴奋又令人担忧的时刻。构建生成式 AI 可以让我们变得更聪明，弥合沟通鸿沟，并打造更好的下一代用户体验。然而，如果我们不负责任地构建这些模型，我们在未来就将面临巨大的道德和伦理危机。

AI 正处于十字路口，我们必须优先考虑 AI 的向善目标，并推动它的实现。RLHF 将强化 AI 训练过程，并确保企业构建合乎道德的生成式 AI 模型。

——Sujatha Sagiraju, 澳鹏 Appen 首席产品官

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/325b4211e533174a5d9faae32】。文章转载请联系作者。

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

发布

暂无评论

创作场景