写点什么

DeepSeek 深度思考体验

  • 2025-03-02
    吉林
  • 本文字数:3884 字

    阅读完需:约 13 分钟

DeepSeek深度思考体验

一 DeepSeek 对话页面

与通义千问、文心一言等大模型的网页版相比,DeepSeek 的页面更简洁,除了简单的介绍+对话框,深度思考和联网搜索两个选项,以及文档上传。不过 DeepSeek 的文档上传只有取消联网搜索的情况下才可操作,并且仅识别文字。

对 RAG 概念有过了解的朋友们可以从这个页面上推导出一些信息:1、DeepSeek 的深度思考只有 R1 模型支持;2、联网搜索和上传附件互斥,通过开关实现知识库/互联网搜索的切换;3、支持多类型的文档内容提取,但提取内容仅限文字,这点可以理解,毕竟是大语言模型,所以基于文字的推理才是大模型的能力所在。

二 体验深度思考

2.1 案例分析

通过一个具体问题,来体验 DeepSeek 的深度思考(推理)能力:你是一名资深研发人员,有十年的后端开发、架构设计和项目架构师经验。请从专业的角度出发,分析你的优势和劣势,并给出你未来 5 年的职业规划。

DeepSeek 给出的思考过程如下:

嗯,用户让我从专业的角度分析自己的优势和劣势,然后给出未来五年的职业规划。首先,我需要明确用户的需求。他们可能是在准备面试,或者在做职业规划,或者想了解资深研发人员的职业发展路径。用户身份可能是有一定经验的后端开发人员,或者是刚入行想参考前辈的经验。深层需求可能是希望获得如何提升自己、避免常见陷阱的建议,以及了解行业趋势。

接下来,我需要从优势、劣势、职业规划三个方面来组织答案。优势方面,十年的经验应该涵盖技术深度、架构设计、项目管理、问题解决能力和行业理解。要具体举例,比如高并发系统、微服务架构,这样更有说服力。劣势的话,需要真实但不过分,比如可能对新兴技术如 Web3 或边缘计算了解不深,管理经验不足,代码优化过度,跨领域知识有限。这些点要平衡,既显示自我认知,又不过于负面。

职业规划部分,要分阶段,短期、中期、长期。每个阶段的目标要清晰,比如前两年深入技术,中间两年转向管理和架构,后一年成为 CTO 或技术顾问。还要考虑技术趋势,比如 AI 工程化、云原生、安全合规,这些是当前的热点,显示对行业的敏感度。

需要避免泛泛而谈,尽量具体,比如提到具体的技术栈如 Kubernetes、服务网格,或者认证如 TOGAF、AWS/Azure 认证,这样显得专业。同时,要强调持续学习和软技能的重要性,如团队管理、沟通能力,这样展示全面发展。

可能用户没有明说的需求是希望了解如何平衡技术深度和管理广度,或者如何保持竞争力不被淘汰。所以在回答中要提到技术敏感度和软技能的结合,以及扩展技术外延,比如产品思维和商业洞察,这样覆盖更全面。

最后,总结部分要简洁有力,强调优势和规划的逻辑性,让用户感受到这是一个经过深思熟虑、切实可行的计划。同时提醒用户如果有具体领域的问题可以进一步讨论,增加互动感。

DeepSeek 的思考过程,可以分为以下几步:

1、首先是需求分析(用户让我....)

这一步是从我的完整输入中提取问题部分,分析提问背景和身份信息,并推测深层次需求;

2、思考回答组织方式(接下来,我需要从优势、劣势、职业规划三个方面来组织答案)

根据我输入的背景推测已具备的技能,并推测可能得优劣势信息。

这里比较吸引我的是对劣势的分析:“真实但不过分... 这些点要平衡,既显示自我认知,又不过于负面”,显然是把上一步的提问背景作为前提,从而得到的回答注意事项

3、总结注意事项(总结部分要简洁有力,强调优势和规划的逻辑性,让用户感受到这是一个经过深思熟虑、切实可行的计划。同时提醒用户如果有具体领域的问题可以进一步讨论,增加互动感

可见,DeepSeek 确实给出了非常不错的一步步的思考过程,对普通用户来说堪称惊艳。这是典型的思维链模式。

2.2 适用领域与官方案例

“深度思考” 模式专门针对数学、代码等各类复杂逻辑推理问题而设计,相比于普通的简单问题,能够提供更加全面、清晰、思路严谨的优质解答,充分展现出较长思维链的更多优势。

关于深度思考,DeepSeek 官方在DeepSeek-R1-Lite发布中给出了另一个更为典型的案例。飞机座位概率计算,需要非常复杂的思考过程,在下面的示例中, 由于推理过程很长,为了节省篇幅,这里只截取部分,省略中间过程:

中间过程省略。


相比于官方示例发布时的回答,现在的 DeepSeek-R1 分析更加详尽,也给出了关键推导以及证明过程。

三 思维链模式(CoT)简介

思维链(Chain of Thought, 简称 CoT),是能够激发大模型通过“思考”来回答困难问题的技术,指把逻辑较为复杂的问题进行拆解,通过一系列有逻辑关系的思考,形成完整的思考的过程,旨在通过向大语言模型展示少量的样例,并通过这些样例解释推理过程,让大语言模型学会在生成答案时展示推理过程,并引导其得到更准确的答案。

对于一些逻辑较为复杂的问题,例如上图左侧的问题(一道对人来说比较简单的数学题),直接向大模型提问会得到错误的回答。但是如果像上图右侧一样,以提示词(prompt)的方式在输入中给出有逻辑的解题步骤(即将复杂问题拆解为多个子问题解决再从中抽取答案)的示例后再提出问题,大模型就能给出正确题解。

相关概念:Zero-Shot、One-Shot、Few-Shot。

1、Zero-Shot CoT(零样本 CoT)不需要提供具体的示例,仅通过在问题后面添加一些特定的提示语,如 “让我们一步步思考”“请详细分析推理过程” 等,就能引导模型自行拆解任务,逐步进行推理 。这种方式充分利用了大语言模型自身已经学习到的知识和语言理解能力,激发其内在的推理机制。

2、Few-Shot CoT(少量样本 CoT)是在提示词中提供少量包含链式思考过程的示例,以此引导大语言模型在处理新问题时也能生成类似的推理步骤,从而增强模型的推理能力 。在这个过程中,示例就像是解题的 “模板”,为模型展示了如何将一个复杂问题逐步拆解并解决。

3、One-Shot:针对单样本学习(One-Shot Learning)问题设计,One-Shot 可以看作是一种常见的 Few-Shot。

CoT 的详尽介绍可以阅读论文:Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

四 DeepSeek-R1 中的 CoT 与 RL(强化学习)

DeepSeek R1论文描述,为训练 DeepSeek-R1-Zero 模型,首先设计了一个简洁的指令模板来引导基座模型遵循预设规范。如下图所示,该模板要求模型必须先生成完整的推理过程,再输出最终答案。其刻意将约束条件限定于结构范式层面,规避任何内容导向的偏差(例如强制要求反思性推理或推广特定解题策略),以此确保在强化学习过程中能精准捕捉模型的原生进化轨迹。

用户(User)和助手(Assistant)之间的对话,是 User 提一个问题,Assistant 解决。Assistant 首先思考推理过程,然后再向 user 提供回答。思考过程和回答分别封闭在<think></think>和<answer></answer>标签内,例如:<think>这里是推理过程</think><answer>这里是回答</answer>. User:prompt. Assistant:

以上是 DeepSeek-R1-Zero 的模板。prompt 会在训练过程中被替换成特定的推理问题。


另外,DeepSeek-R1(论文中指 DeepSeek-R1-Zero)无需依赖任何监督微调数据即可实现强大的推理能力,其充分验证了该模型仅通过强化学习(Reinforcement Learning, RL)即可完成高效学习与泛化的技术路径。此外,通过引入多数投票(Majority Voting)机制,可进一步显著提升 DeepSeek-R1-Zero 的性能表现。

讨论:Ensemble Learning 的方式可能是可以进一步显著提升表现的路径。意味着可以尝试通过 MoE(Mixture of Experts with TopN Gating)的方式在保持推理参数量不变的情况下进一步提升性能

DeepSeek-R1-Zero 的自我进化过程生动地揭示了 RL 是如何驱动模型自主提升推理能力的。通过直接从基座模型(Base Model)启动 RL 训练,能够完全排除监督微调(Supervised Fine-Tuning)阶段的干扰,实现对模型进化轨迹的全程观测。这一方法论为追踪模型进化路径提供了清晰的观测窗口,尤其能有效揭示其在处理复杂推理任务时展现出的推理能力。


DeepSeek-R1-Zero 通过扩展测试时计算(Test-time Computation)能力,实现了对复杂推理任务的自主攻克。该过程涵盖生成数百至数千个推理标记(Reasoning Tokens)的运算规模,使模型能够在更深层次上探索并优化其思维过程。这种自我进化最显著的特征在于:随着测试时计算量的增加,复杂行为的涌现现象(Emergence of Sophisticated Behaviors)开始显现。具体表现为:

1、反思机制(Reflection):模型会自主回溯并重新评估先前推理步骤

2、多路径探索:系统自发尝试不同的问题解决策略

这些高阶认知行为并非通过预设编程实现,而是完全源于模型与强化学习环境的持续交互。这种自组织演化特性使 DeepSeek-R1-Zero 的推理能力产生质变,在效率与准确性维度同步提升,最终形成攻克复杂任务的系统性解决方案。

更加详细的论证,大家可以直接阅读论文。DeepSeek 近期的论文整理如下:

1、DeepSeek-V3 Technical Report,论文地址:https://arxiv.org/abs/2412.19437,主要内容:总参数量为 671B,每个 token 激活 37B 参数,采用无辅助损失的负载均衡策略和多令牌预测(MTP)训练目标,支持 FP8 混合精度训练,显著降低训练成本。

2、DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,论文地址:https://arxiv.org/abs/2501.12948主要内容:基于 DeepSeek-V3-Base,通过强化学习(RL)提升推理能力,引入冷启动数据和多阶段训练流程,优化模型的可读性和性能。

3、DeepSeek-R1 蒸馏模型:Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Model。论文地址:https://github.com/deepseek-ai/DeepSeek-R1主要内容:将 DeepSeek-R1 的推理能力蒸馏到更小的模型(如 Qwen 和 Llama 系列),蒸馏后的模型在多个基准测试中表现优异,显著超越同类开源模型。


发布于: 刚刚阅读数: 7
用户头像

磨炼中成长,痛苦中前行 2017-10-22 加入

微信公众号【程序员架构进阶】。多年项目实践,架构设计经验。曲折中向前,分享经验和教训

评论

发布
暂无评论
DeepSeek深度思考体验_强化学习_程序员架构进阶_InfoQ写作社区