Chain-of-Thought 真能提高大模型的推理能力吗?
用于提高大语言模型(LLM)的推理、规划、算术等能力的思维链(Chain-of-Thought、CoT)技术,真的能帮助 LLM 一步步地回答问题吗?美国亚利桑那州立大学的研究人员近期发表了一篇论文[1],论文根据实验结果,对 CoT 能够通过一系列的提示、引导 LLM 进行推理的观点提出了质疑。
作者们在评估 CoT 的推理能力时,没有采用较流行的 GSM8K、CommonSenseQA、StrategyQA 等测试数据集,而主要针对国际规划竞赛(International Planning Competitions)所认可和使用的 Blocksworld 问题进行了试验,同时还试验了以下三类推理和算术问题:
翻硬币(Coin Flip)问题;
字母拼接(Letter Concatenation)问题;
多步算术(Multi-step Arithmetic)问题。
Blocksworld 问题及实验结果
Blocksworld 问题在规划问题的文献中使用较广。Blocksworld 问题所要解决的是将一定数量的积木从开始时的布局,通过一步步的移动,转变成为目标布局。作者们在实验中采用了 Blocksworld 问题中的较为简单的一部分子问题,具体而言,就是将台面上的一定数量的积木,按照目标顺序(例如积木 A 在积木 B 之上)堆成一个立柱的问题。
实验时,作者们采用了不同详细程度的多种 CoT 提示语,包括简单的 Zero-Shot CoT 提示语(即在提示语中增加“Let’s think step by step.”),以及几种更加详细具体的 CoT 提示语。所采用的 LLM 包括 GPT-4、Claude-3-Opus 和 GPT-4-Turbo。
实验的主要结果是:
未采用 CoT 的 LLM 基本不具备简单的规划能力;
只有当 CoT 提示语中的示例很详细、并且与所求解的问题足够相似时,CoT 才能起到明显的作用;
不论采用多么详细具体的 CoT 提示语,当积木的数量增多时,堆叠积木的成功率都急剧下降,这意味着 CoT 所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性;
即使使用 self-consistency(一种改进的 CoT 技术),得到的结果也类似、甚至更差。
翻硬币问题及实验结果
翻硬币问题,是告诉 LLM 一枚硬币最初正面朝上,“人员 1”翻转了这枚硬币,“人员 2”未翻转这枚硬币,.... ,“人员 N”翻转了这枚硬币,然后提问 LLM 这枚硬币最终是否正面朝上。其中,“人员 i”在提示语中被替换成不同的人名。
实验时所采用的 LLM 是 GPT-4-Turbo。实验的主要结果是:
当提示语中涉及的人数 N 不超过 30 时,采用 CoT 的回答准确率随着人数的增加而有所下降,但能保持在 90%以上;相比之下,未采用 CoT 的 LLM 的回答平均准确率不到 60%;
当提示语中涉及的人数 N 超过 30 时,采用 CoT 的回答准确率降至 90%以下。
论文指出,只有翻硬币问题能以某种迹象展示出 CoT 的综合能力;论文同时也指出翻硬币问题非常简单,不需要太多的推理能力。
字母拼接问题及实验结果
字母拼接问题,是提供给 LLM 一组英文单词,让 LLM 将每个单词的特定位置的字母拼接在一起,例如:对于“Craig Alice”,将每个单词的最后一个字母拼接在一起(答案是“ge”)。
实验时所采用的 LLM 是 GPT-4-Turbo。实验的主要结果是:当英文单词的数量增多时,采用 CoT 的回答正确率急剧下降,这意味着 CoT 传授给 LLM 的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。
多步算术问题及实验结果
多步算术问题,是让 LLM 简化算术表达式,例如:简化“3 / (9 - (5 + (1)))”(答案是“1”)。
实验时所采用的 LLM 是 GPT-4-Turbo。实验的主要结果是:当算术表达式的长度增加、计算所需的步骤增多时,采用 CoT 的计算正确率快速下降,意味着 CoT 所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。
结论
基于上述多个实验的结果,论文提出了以下的观点:
CoT 不像宣传的那样,能让 LLM 学到通用的、解决新问题的能力,只能让 LLM 通过某种方式的模式匹配来达到有关能力的提升;
非常贴切、具体的 CoT 提示语只可能在足够窄的问题领域中起到作用。
参考文献
[1] https://arxiv.org/abs/2405.04776
题图:Suzy Hazelwood、Pexels
版权声明: 本文为 InfoQ 作者【算AI】的原创文章。
原文链接:【http://xie.infoq.cn/article/773c5a3fb56afe8ce33f25c19】。文章转载请联系作者。
评论