CoT 思维链 , 大模型“智能涌现”的关键
怎样才能让大模型“涌现”?如果你是一名 AI 大模型研发人员,这可能是你最近一直在思考的问题。
在大模型领域,“涌现”是指当模型突破某个规模时,性能显著提升并表现出让人意想不到的能力,就好像 AI 有了“人”的意识一样。强大的逻辑推理是大模型“智能涌现”的核心能力之一,而推理能力的关键,在于一个技术——思维链 (Chain of Thought / CoT)。
CoT 和 ReAct (Reason+Act) 是提示工程 (Prompt Engineering) 的两个重要概念,他们本质上都是在帮助大模型学习人类解决问题的思路和方法。
今天我们就来聊一聊澳鹏 Appen 如何帮助 AI 大模型训练这种“人”的能力。
CoT 标注
突出思维链推理的标注
类 GPT 应用通常会在哪里“翻车”?——大多是数学算术题、逻辑思考题等。这类需要精确推理的问题,正是思维链能够重点解决的。
在大模型热潮的当下,高质量的思维链训练却比较稀少。CoT 思维链训练离不开人工构建推理过程:将一系列中间的推理步骤进行描述,让大模型通过学习推理过程,在算数推理、常识推理、符号推理等任务中取得更加理想的结果。
澳鹏 Appen 思维链数据标注,针对给定的一段逻辑推理过程,可以分解出前提条件和结论,并论证逻辑的正确性。我们的标注工具提供针对原始文本的修改和打分机制,能够进一步解析每一段文本的细节属性。
下面是一个数学题的例子:
标注工具的标记内容适配各种不同的公式表达,可以在各种专业领域提供个性化的支持和扩展。
CoT 对于复杂问题的性能增益很大,但是它依赖于给定的前提和信息,有时会输出流畅但不合逻辑的错误结果,就像在“一本正经地胡说八道”。
此时结合 ReAct 可以进一步帮助大模型提升能力。
ReAct 标注
突出工具调用的标注
ReAct,Reason+Act,“行为”和“推理”的协同作用,就像人类能够学习新任务并做出决策和推理的过程。
最新研究表明,ReAct 和 CoT 方法的结合是提升 LLM 推理能力并减少幻觉的最佳方法之一。ReAct 框架允许大语言模型与外部工具交互来获得额外的信息,并得出更加可靠的返回。
澳鹏 ReAct 标注工具让人类标注员检查 ReAct 推理轨迹并做出少量手动编辑和标记,替换推理轨迹中的错误输出。事实核查、上下文一致性检查,以及调整工具调用过程中的错误使用等,可帮助模型调整其行为,简洁高效地解决任务。
如何将工具可视化地展示给标注员,加快他们对于 API 的理解?又如何在理解的基础上正确高效地进行标注?以下界面展示的是澳鹏 ReAct 工具调用的过程,我们内嵌的多模态编辑器可以对工具调用返回的 JSON 格式数据做结构化的展示。
澳鹏 ReAct 标注的工具定义悬浮窗口支持 1 万个以上的工具定义,帮助标注员快速查看和掌握工具的用途以及输入输出参数。
在构建 ReAct 数据标注模版的背后,离不开强大而灵活的澳鹏自定义模版引擎。
自定义模板
灵活的数据标注底座,赋能大模型千变万化的标注需求
澳鹏自定义模版引擎为多变的项目规则而生,具有高度灵活性,可以帮助项目经理在最快 5 分钟内根据标注需求适配出一个定制的标注模版,极大地降低了项目实施难度,对于 NLP, 大语言模型等文本和多模态数据标注项目具有极高的友好性。
我们的模版引擎定义了一套类似 HTML 的模版语言,可以自定义标签并嵌入项目标注所需的数据字段,比如文本内容、图片地址、音频地址等。同时,默认集成常用的表单元素,如单选框、多选框、单行/多行文本输入框等,提供多样化的数据标注方式。
模版语言对于使用者有一定的网页编写技能要求,但我们也为特定场景预定义了大量元素标签。例如,大语言模型 LLM 对话类数据标注工具,仅仅需要一行就可以加载出一个多轮对话的标注页面。
根据输入的数据,展现的对话标注界面:
还可以实现 NER 类型的数据标注:
根据输入的数据进行界面展示:
澳鹏 Appen 自定义模板引擎还为更多复杂的标注场景预定义了模版标签,如音频标注、图像标注、视频标注、地图标注等。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/28a2eb5c838a534f7bb4ae38f】。文章转载请联系作者。
评论