如何提升大模型的“深度思维能力”
作者:兰韬
我们是阿里巴巴智能引擎事业部。智能引擎源自阿里搜索、推荐、广告技术,是深耕多年的 AI 工程团队,在 AIGC 时代致力于为内部业务提供先进、完整的大模型工程体系,持续关注训推性能、成本、研发范式等关键问题。本文将基于我们的思考,探讨大模型提升思维能力的路径。
一、前言
人类的思考可以是瞬间的,也可以是漫长的,尤其在面对棘手问题时,人类需要更多时间。这种特性大大提升了人类思维的潜力。当我们面临困难问题时,人类会尝试“分析-反思-创新”的链条,从而花费很长的时间来获得更为可信的答案(亦或是更美的答案,这是另一个问题,暂时不在本章中讨论)。
从大模型的计算过程而言,我们很难相信它能够不经过思维过程的训练就获得思维能力,事实上我们可以认为,大模型获得思维能力的最佳路径也是通过显性的文字(或者图像)来完成,深化大模型的思维能力,一个可能而合理的手段是通过模拟思考来提高语料的自洽性,以提高模型的思维能力(Reflect to Understand)。
在本章中将对这一部分做深入的分析,希望通过探讨人类如何有效地分析、推理并得出合理答案的路径,为大模型在数据处理与优化上的改进提供启示。并探讨合成数据应该以怎样的视角和目标,来完成这部分工作。
二、思维模式
我们从人类的思维模式入手,希望能讨论出对人类思维模式更简化的描述。人类的思维过程是非常丰富的,很难以简单的分类方式来归纳人类的所有思维过程,因此我们需要先把目标锁定在相对可探讨的范围内,对于人类而言,有很多直觉思维、习惯性思维、情感驱动以及潜意识的行为,我们还没办法建立起一个复杂的反馈系统以及记忆系统,因此我们先把问题聚焦在,人类经过深思熟虑来尝试解决问题的过程,也会更像是人类的 system2 模式。
2.1 思维的差异
让我们从一个常见的例子开始:规划一场五天的“北京旅行”。当我们向大模型提出这一问题时,得到的回答通常是标准化的,比如“第一天游览故宫、天安门,第二天爬长城,第三天去颐和园……”尽管这些答案看似合理,却往往缺乏个性化和细致的规划。这也是我们经常说的,大模型具备弱推理、弱规划能力,这意味着我们需要通过人为规则来强化它。
与此形成鲜明对比的是,我们在社交平台上可以看到一些用户分享的个人旅游攻略,内容详尽,甚至精确到每小时的安排,如“上午 9 点到达 XX 景点避开人流高峰,11 点前往附近小吃街品尝特定餐厅的招牌菜……”这些攻略令人叹为观止,展现了人类在复杂决策任务中的强大能力。
人类的思维过程始终在动态平衡中运行:一方面,通过联想、查阅资料、与他人交流等方式“增加”信息;另一方面,通过筛选、排除、归纳等方式“减少”信息,逐步聚焦于可行的选项。这种“增-减”的循环贯穿于大部分推理和决策。
在规划北京旅行时,我们首先会明确一些宏观目标:是否以文化景点为主?是否优先考虑美食?是否需要照顾同行者的体力或偏好?随后,我们会逐步缩小选择范围,圈定必去的景点和适合的住宿区域,并通过预算调整、交通路线优化等环节,将一个模糊的目标转化为具体的计划。
这一过程中,信息的引入和筛选是交替进行的。当我们感到信息不足时,会通过查阅更多资料来“补充证据”;当信息过载时,又会快速筛除无关内容,以降低认知负担。这种平衡让人类能够在面对复杂问题时,从多维度展开思考,并通过筛选找到最优解。
这种思维模式遍布我们大部分推理和决策过程,例如:
当我们做数学证明时,我们找到最可能的解法,一个结论被证明后,其证明过程我们可以主动地忽略,而聚焦于如何应用它。
当我们想购买一部手机时,我们会列举各种参数价格,逐步把选项聚焦在少数几个,并忽视这几个选项中共同的参数,跟聚焦的对比差异化的部分,与我们需求之间的关系。
当创作一个小说时,我们先会去寻找灵感,找到一些关键要素,并根据关键要素把核心大纲补充完整,然后才关注到每个章节的创作中。
2.2 信息熵的概念:降低不确定
从信息论的角度看,人类决策的核心目标是降低信息熵。信息熵代表了系统的不确定性程度。在高熵情况下,所有选项看似差异不大,决策难以推进;在低熵情况下,选项变得更加明确,决策变得轻松。
以旅游计划为例,假如我们同时考虑了数十个景点,而它们在吸引力、距离等方面差异不大,就会产生高信息熵的困境。为了突破这一困境,人类通常会引入更多信息,如“当前季节的景色特点”“附近是否有知名餐厅”等,以逐步拉开选项间的差距,最终让决策变得明确。
甚至有时我们会陷入“毫无头绪”的困境,这也并不意味着完全没有选项,而是因为所有选项看起来差异过小。例如,在写小说时,当我们缺乏灵感时,问题往往出在已有的设定和组合都难以激发“新意”。我们知道某个地方需要创新,却难以确定具体的突破点。这种状态下,反而是选项数量过多,却彼此类似,导致信息的决策难度极高。
我们可以意识到,在人类思维过程中,始终在增加信息量(联想)和减少信息量(信息筛选折叠),以降低决策信息熵(让答案更加聚焦)。这一过程始终贯穿在我们的思维过程,当我们缺乏灵感、难以抉择时,我们总是尝试“找到”足够多的信息,以帮助我们决策,这不仅仅是思考,我们也通过书籍、与人沟通交流、动手实验等方式获得更多的“证据”;当然,这其中也伴随着减少信息的动作,在增加信息时产生了大量的过程信息,就像数学中的证明和定理、已经诊断明确的病因、每天都走的出行路线一样,当我们认可其结论后,则不再记忆其过于细节的过程,而专注其结论。
2.3 回到大模型视角
既然人类是通过增-减信息以降低信息熵的,那么同样的模式能否应用到大模型上呢?我们先观察信息熵是否对大模型而言同样适用。大模型通过预测下一个词生成文本:
当下一个词非常确定,则显然的概率被集中在少数甚至一个答案上,这时其信息熵较低,模型对于结果比较有信心。
当下一个词的概率分布高度分散、每个词看起来几乎等概率时,也是信息熵极高的情况,模型实际上处于一种无法判断的状态。需要注意的是,这种“无法判断”不是简单地回答“我不知道”,而是连是否该选择“我不知道”都不确定。
从结果看,信息熵能代表模型的准度,尽管这一准度的评委似乎是模型自己,这本身似乎陷入了“循环论证”的过程,然而大模型本身也是对人类逻辑的拟合,实际上人类也在试图“解释”现象以降低信息熵,提高一致性,数据的一致性越高,模型拟合到的推理过程的一致性就越高。我们暂且搁置实际执行过程中可能存在的“循环论证”的问题,转而做一些观察,我们看看增-减信息以降低信息熵的方式,能否让模型本身准度有所提高:
对于增加论据的模式,COT 应用的成功也证明了增加相关“证据”并逐渐接近答案,能让模型的准确率显著提高,增加足够多的论述过程,会让模型更倾向于得到这些论据所论述的答案。
对于减少噪声的模式,可以观察到的一点是,尽管拥有强大的注意力机制,但当上下文过长或信息过于复杂时,模型的预测精度也会显著下降。适时总结前文继续往下推理的模式,也是能让模型精度有所提升的。
2.4 信息 &逻辑层面
我们试图让模型具备更强的“思考能力”,暂且不探讨生成的文字的美感、人类友好等问题,这些更像是反馈和人类对齐的问题,而不是仅仅是推理问题,而这些问题可以通过其他方式(专门负责表达的模型、或者针对性的指令)来完成,它们在一定程度上与“思考能力”有所重叠,例如写诗这类任务,如果能把诗词的美感要素以文字表达出来,并让模型“思考”出这些内容,再选择词来写诗,很可能会让模型对诗词的生成更具备逻辑性。
根据之前探讨的内容,模型的语料中缺乏思维能力,甚至有很多相互矛盾的内容,这样的语料内在逻辑并不自洽,我们会尝试探讨如何像人一样重新“思考”一遍这些语料,并把思考过程的信息补充进去,以得到一个逻辑自洽的语料,从而降低信息熵,增加模型准确度,并且使得模型具备看上去的“思维能力”。
我们需要对于符号做一些简单的约定,我们用大写字母表示“证据/结论”:
推导过程用“->”符号表示,例如“杭州->适合旅游”,这意味着模型看到杭州这个词推导出适合旅游这个结论。
共同作用的推导过程“()->”表示,例如(充足的阳光,定期浇水)->植物健康生长,同理更多的条件时以(A,B,C,D)->E 表示。
增加信息
在增加信息以获取更强大模型能力的角度看,多步推理是一个非常重要的场景,典型的形式是 A → B → C → D 的链式推理。
然而,现实语料中,面对复杂问题我们往往看到 A → D 的简化结论,例如“如何评价 xxx 公司的未来发展”,大模型往往倾向于直接“背诵”已有的分析结果,这是因为语料中对于这类复杂问题更多是结果性的内容,推理路径的缺失成为模型学习复杂逻辑的主要障碍。这引出了一个核心问题:如何合成逻辑自洽的推理路径,提升大模型的思维能力?
路径生成
生成推理路径的难点在于路径的多样性与逻辑自洽。对于同一个问题,可能存在多条不同的合理解法。以数学为例,一个定理往往可以通过多种证明方式得到结果;而在自然语言中,推理链条的表达可能更加多样化,语义上的灵活性让问题更加复杂。
在数学问题上,CoT 技术是非常成功的应用,通过 CoT 产生更多的中间推理过程数据,从而用以训练能使得模型可以逐步生成逻辑清晰的中间步骤,直到最终答案。
这其中很关键的两个要素在于下一个论据的可枚举以和可验证,对于一般任务而言任务,我们可以采取更宽松的方式,例如通过大模型本身(或专为此任务微调的模型)结合人工定制策略扩充推理数据,另一种思路是直接借鉴已有人工设计的推理链条,尤其是在特定领域已经实践的人工编排策略,这种方法可以快速生成高质量的推理语料。
推理粒度与压缩
生成多步推理路径的另一个关键问题是:在什么情况下直接从 A → D 更有效?什么时候需要完整的 A → B → C → D 路径?这实际上涉及到语言模型的压缩原理。
语言模型的本质是学习词与词、句与句之间的关系,并将这些知识压缩进模型。如果在语料中,A → D 的频次足够高,模型学习这一关系的代价会远低于生成 A → B、B → C、C → D 三个关系之和。此时,从“压缩效率”的角度看,直接记忆 A → D 更优。然而,当 A → D 的出现频率较低,或者需要推理的任务复杂性更高时,模型会倾向于依赖 A → B → C → D 等逐步推理过程。
从人类的角度来看,这种现象也有迹可循。我们的深度思考(“System 2”)会将高频推理结论沉淀为直觉(“System 1”)。例如,在日常生活中,我们很少再去逐步推导“重力会让物体下落”这一结论,而是直接将其作为常识。对于大模型,类似的压缩机制也可能自然发生,尤其是在 A → D 的频率足够高时。
一个关键的启发是,“论据”粒度的选择需要基于全局视角。对于高频结论,直接学习 A → D 是一种高效选择,因为它减少了推理链条的存储和计算开销。对于低频结论或复杂任务,生成完整路径 A → B → C → D 则显得尤为重要。这不仅能提升模型的泛化能力,还能为任务提供更高的可解释性。
这种粒度选择需要结合语料的统计分布和推理任务的目标。理想情况下,模型应能够根据任务需求动态调整推理路径的粒度:在需要效率时,优先使用简化结论;在需要逻辑完备时,生成详细路径。
多结论问题
我们在前面的文章中探讨了训练语料中不少由于营销、价值观、认知不同所导致的有“错误及偏见”,我们可以认为在数据中的表现为同时存在 A → B 和 A → C 的语料,当模型学这种语料中学习时,遇到 A 为前提的问题,无法判断答案应该是 B 还是 C,亦或者错误答案 C 的语料多,而正确答案 B 的语料少,在缺乏更多信息的情况下,模型很难给出正确答案。这种情况下,真实逻辑可能的是:(A, D) → B 和 (A, E) → C,也就是说,隐藏的条件 D 或 E 对推理结果起到了决定性作用。
这种现象实际上颇为常见,例如同样是给出行程安排的情况,一些猎奇博主给出的旅行方案可能全篇都是猎奇的,而美食博主则可能更多关注美食,如果能把贯穿始终的风格提前识别出来并注入语料,能让模型更多以更一致的视角回答问题,降低信息熵,提高模型准度。对于一般的“错误和偏见”问题,例如“三亚这人虽然不多,但是太热了,不适合来玩”,可能是因为“现在是夏天,而夏天是淡季”,这种类似人类阅读直觉的,能让语料本身的逻辑更加自洽。除此之外类似小说创作先列出大纲,笑话先写出笑点,对于创造的稳定性而言都是显著的增加。
上述的处理过程会让多结论问题尽早用较少的词来固定全局风格,增加整体的一致性,如果处理得当,甚至可能能有效地加强模型的反问能力。
2.5 降低信息/噪声
在人类的逻辑语言中,经常在同一篇文章中会存在大量不相关的内容,越是长的论述中,越容易出现这种现象,因为人类在做深度思维时,总会习惯性的拆分出多个子问题,以分开论述,例如(A, B) → C,在逐步证明 A 和 B 的过程中,会引入大量的过程论述,一直递归到足以回答问题为止。
然而这一过程也为整个文本注入了大量的噪声,例如当我们论述 B 时,A 的论述过程对 B 而言是噪声。类似的现象还有很多,例如当我们让大模型帮我们写一本小说时,我们会列好大纲,也可能是多级的大纲,然而当我们考虑把大纲中某一章节展开细节时,前文大量的过程都我们而言都是噪音,亦或是大纲的形态也可能是双线叙事,另一条故事线的很多细节也是对于本故事线而言也是噪音,我们只会关注交织点或者可能的共同点等。
人类之所以能做如此深度的思维,很大程度上是其对噪声的处理能力,尽管大模型依靠 attention 机制也能降低噪声带来的影响,然而从语料或者训练角度给以模型足够的帮助,则能大幅提升模型的思维深度。
目前业界也有不少通过人工编排从而提升大模型信息关注方面的能力,例如写小说先写大纲,或者定期推理定期总结前文,其目的都是为了控制有效信息,排除“噪声”,使模型看到的信息与当前的问题更相关,而在完成当前问题后,又能将“噪声”引入回来,继续完成其他问题,这些技术的确大幅提升了模型在相应领域的能力。
如果希望大模型具备深度思维能力,以显性文字的方式表达思维过程,那么我们也会学会人类的思维模式:对于同一个问题我们可能有多种思路,错误的答案能帮助我们找到正确的答案,即便找到一个相对满意答案,我们也会尝试找到更好的答案,思维的发散程度与思维深度是并重的。
以这个视角看推理文本的长度会随着思维的深度成多项式甚至指数级的增加,这几乎是我们无法接受的,模型的精度一定会受限于 attention 的精度,如何降低无关内容的影响,是需要有更好的控制机制的。
大模型对噪声的处理有两个难点,一个是如何主动意识到噪声的存在,另一个是如何从计算结构层面移除噪声。一个简单的策略是设定上下文超过一定长度时“触发”主动的信息整理,我们再回顾一下人类的思维模式,信息的整理是为了某个目的的,例如我们过往一周哪天花销最高,我们会把每天的花销加起来以比较,然而如果问题是过往一周有哪些大额花销,需要提取的信息则完全不同。
因此对于语料而言,目的识别是去除噪声的必要条件,类似文章想表达的核心思想,达到的目的等,都是整理信息所必要的前提,更深入的如果能更加分段的理解内容的“解题过程”,才能更好地识别段落间的噪声。需要注意的是类似百科类的纯记忆知识是无法无法整理的。
由于噪声大部分是“论据”之间相互为噪声,因此我们并不能真的把这些信息删除,而且还需要对被移除的信息做基本的总结,例如写小说而言,为了让下一章与上一章能做好衔接,需要把上一章甚至更前面的内容会影响到本章的做一个基本的摘要,以辅助本章的创作,在真实的小说本身是没有这些内容的,甚至其他章节也不需要看到这些信息,因此在数据处理成这个形态后,一方面可以拆分成多条样本,另一方面也可以通过 mask 的方式来处理其相互之间的可见性。
三、结语
可以看到,不管是增加信息还是减少信息,其过程都对语料全局的统计信息有所依赖,例如单步推理的合理性评估、对文本目的性的识别、路径颗粒度的合理程度等等,对于统计信息的依赖,一个比较容易的路径就是利用现有的大模型,因为现有大模型已经对整体语料“学习”过一遍,再对其进行针对性微调,模型在很大程度上能胜任这些任务。也就是说,通过当前模型的弱推理、弱规划能力,逐步强化数据以达到更强的推理、规划能力。
对于模型如何学习“人类思考过程”还有很多可以探讨的内容,限于篇幅,太多细节不便展开。人类在“阅读”知识的时候,会持续加入自身理解和判断,主动聚焦和拆解问题,而目前大部分语料并不具备这样的过程记录。对于大模型而言,通过对人类学习过程的模拟来加深模型的思考能力,能很大程度提高其推理能力。
深度思考能力是人类解决复杂问题能力的核心,甚至是通往 AGI 的必经之路,通过预训练语料的修正只是其中一环,如何与真实世界链接,如何建立类人的反馈机制,这些问题一步步解决,似乎让我们能够瞥见 AGI 一眼。
版权声明: 本文为 InfoQ 作者【阿里技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/0db697971ad2a6604769f2d84】。文章转载请联系作者。
评论