写点什么

快手 AutoThink 大模型 KAT-V1 正式开源,40B 版本比肩满血版 R1,技术报告全公开!

作者:快手技术
  • 2025-07-22
    北京
  • 本文字数:4882 字

    阅读完需:约 16 分钟

快手 AutoThink 大模型 KAT-V1 正式开源,40B版本比肩满血版R1,技术报告全公开!

近日,快手发布并开源了 KAT-V1 自动思考(AutoThink)大模型,这是一款融合思考与非思考能力、并且可以根据问题难度自动切换思考形态的模型。


KAT-V1 模型共有 40B 和 200B 两个版本。在自动思考模式下,40B 版本的性能可追平今年 5 月发布的新版 DeepSeek-R1(参数量为 6850 亿)。而 200B 版本的模型,则在多项基准测试中超过了 Qwen、DeepSeek 和 Llama 这三大开源模型家族中的旗舰模型。



值得一提的是,在号称无法作弊的竞赛级实时基准测试 LiveCodeBench Pro 上,KAT-V1 也以 40B 的参数成功跻身于闭源模型之列,超越一众思考/非思考的开源模型:



快手 Kwaipilot 团队在技术报告中,揭秘了 KAT-V1 模型背后的多项技术创新。


该团队不仅提出了一种全新的长短思考混合模型训练范式,还基于传统强化学习算法(GRPO),提出了带有新型强化学习方法 Step-SRPO,进一步提升了模型输出 token 的思考密度以及对是否应该开启思考模式的判断力。


在部分基准测试中,即使模型自我选择不开启思考模式,受益于融合训练方法和推理模板,性能也有小幅上涨。


KAT-V1 模型家族的 40B 版本已在开源模型托管平台 Hugging Face 上线。技术报告透露,200B 版本的 MoE 模型仍在训练过程中。同时,用户也可在快手打造的 AI 研发助手 Kwaipilot 中体验到这一模型。


模型开源地址:https://huggingface.co/Kwaipilot/KAT-V1-40B

技术报告地址:https://arxiv.org/pdf/2507.08297

模型海外试用地址:https://kwaipilot.ai/search


一、推理模型过度思考问题凸显,如何让 AI 学会自主判断?


自 OpenAI 推出 o 系列模型以来,通过工程设计和后训练技术,让模型在回答问题前进行更深入的思考、推理和规划,已经成为智能水平提升的重要路径。


然而,在实际体验中,推理模型“凡事都要先思考”的运行模式,演变成了“过度思考”的问题:模型机械地展开冗长的推理链,缺乏灵活的判断能力。



在问及简单事实性问题时,推理模型也会过度思考推理模型的这种思考模式,其实与人类日常的思考模式大相径庭,人类往往先基于直觉或经验做出快速判断,再在需要时进行深入的思考。


“过度思考”现象不仅显著拉长了响应时间,让用户感到“笨重”、“迟钝”,还会在问及简单事实性问题时带来明显负面体验。对于需要快速、直接反馈的场景(如客服问答、代码调试),这种延迟会降低满意度和使用意愿。


同时,大模型“过度思考”还会显著增加推理所需的计算资源和能源消耗,导致运算成本上升。对面向 C 端的大规模部署来说,这种浪费尤为突出。


为了“显得在思考”,模型还有可能在中间步骤生成并不准确或逻辑矛盾的内容。这些内容若被用户误解为可靠推理,反而增加了错误决策的风险。


已经有不少模型厂商注意到了“过度思考”的挑战。谷歌为 Gemini 引入了思考预算组件,允许开发者选择模型的思考长度;Anthropic 则将 Claude 4 模型做成了混合推理模型,用户无需切换模型,即可自主选择是否开启推理。


不过,上述流程仍需要人类的参与和配置。要更为系统性地解决推理模型的“过度思考”问题,研究者还需要探索如何让模型根据任务复杂度自主决定是否思考,实现更灵活、高效的人机协作。


快手 Kwaipilot 团队已在今年 6 月初发布了上述问题的初步解决方案——KwaiCoder-AutoThink-preview,虽然名字是 Coder 但具备通用模型能力,KAT-V1 在其基础之上针对推理能力进行了重点优化。


二、高质量数据+模型知识蒸馏+MTP,1/30 成本完成模型的冷启动


KAT-V1 模型由 Qwen2.5-32B 扩展而来,通过分层定向扩展的策略,将模型参数量有选择地扩展到 40B,减少了无效的参数增长,实现规模与计算效率的平衡。


在 KAT-V1 模型的预训练阶段,Kwaipilot 团队构造了大量的思考/非思考数据。对于非思考数据,为了保证问题的广泛性,他们从预先收集的 5TB tokens 预训练数据中,抽取出部分带有推理特征、具有一定难度的多领域数据。


思考数据则使用一个 Agentic 框架来合成。该框架由解答者(solver)、思考者(thinker)和评论者(critic)组成。解答者先提供初步答案,思考者对解决方案进行反思和迭代改进,评论者对整个流程进行监督,以保证逻辑一致性和输出质量。


这一框架可在一定程度上提升合成数据的质量——只有经过核验的高质量合成数据才能被保留,并转化为长思维链(long-CoT)数据。


预训练阶段,Kwaipilot 团队使用了大约 1000 万个示例的语料,其中约 34.8%的数据为思考数据,约 65.2%的数据为非思考数据。这些数据涵盖了科学、代码、数学、工具调用和通用知识等广泛领域,给模型的能力泛化提供基础。


Kwaipilot 团队选择通过模型蒸馏的方式完成模型的初始化冷启动——先让一个大型教师模型在输入数据上输出详细的概率分布,再让较小的学生模型在相同输入下产生预测,通过最小化两者之间的差异,使学生模型学习教师模型的预测模式和知识。


不过,KAT-V1 采用了独特的异构蒸馏框架,能够更高效地将教师模型的知识传递给学生模型。该框架由通用 Logits 蒸馏损失(ULD Loss)和多 Token 预测(MTP)两大模块组成。


其中,MTP 模块使学生模型在一次计算中不仅能预测下一个 Token,还能同时预测多个后续 Token,从而增强模型对“未来收益”的理解。通俗地说,多 Token 预测让模型学会做出有利于整个序列长远表现的决策,提高了预测的准确性和学习效率。


在多种对齐方式中(如对齐 embedding 层或语言模型输出等),Kwaipilot 团队发现,对齐 Token 级别的 logits 效果最好,这就是通用 Logits 蒸馏损失(ULD Loss)的核心。


教师模型在生成每个 Token(如 Token A、B、C)时,会输出对应的 logits(即模型预测该 Token 的原始分数),并将其作为监督信号传递给学生模型的 MTP 模块。ULD Loss 则弥合了正常序列预测与并行预测之间的差异,使得即便模型架构不同,也能灵活实现知识迁移。


整体上,这个设计大大提高了知识迁移的效率,让小模型在冷启动时用较少算力就能快速获得较好的性能。Kwaipilot 团队透露,他们以传统方法 1/30 的成本,完成了模型的冷启初始化。


三、优化 GRPO 算法实现高效 RL,激发模型智能选择思考模式


在预训练阶段,模型已经通过思考、非思考数据的注入,学会了在得到外部指令时,被动切换思考模式。而后训练阶段的目标,则是让 KAT-V1 学会根据输入查询,自动确定适合的思考模式。

SFT for AutoThink


Kwaipilot 团队通过结构化的数据合成流程,让模型学会在 Think-on(思考)和 Think-off(非思考)两种模式之间做出选择。每个查询先由多个模型投票决定适合的推理模式,再分别用 DeepSeek-R1 或 DeepSeek-V3 生成回答,确保内容多样且契合任务。


同时,为提升模型对思考模式的理解,每条样本还由 DeepSeek-V3 生成解释说明合理性,作为额外训练信号,并将约 1%的数据随机分配模式防止过拟合。所有数据都使用统一模板,包含对是否需要推理的判断、(如需推理时的)推理过程及最终回答,使模型既能判断是否推理,又能清晰区分分析与作答。



这些数据让模型学会了如何判断用户意图以及问题难度,并决定如何思考后再进行回答。经过冷启 SFT,KAT-V1 可以在需要思考的困难榜单上达到 DeepSeek-R1-0528 95%以上的性能;在较为简单的榜单上,由于模型自我决定部分问题进行深度思考,而出现 10%-30%的性能涨幅。

RL via Step-SRPO


仅通过精细化数据 SFT 所获得的判断能力受到数据制约,其智能程度和灵活性仍然受限,泛化性也还不够强。


为了让模型的思考判断更加智能,Kwaipilot 团队需要进行强化学习。最初,他们采用传统强化学习算法 GRPO 进行端到端强化学习,希望让模型更智能地判断是否需要思考。但由于 GRPO 缺乏清晰的过程监督,训练中出现了不稳定现象,比如模型表面上判断应开启思考模式,最终却不进行推理,或者在简单的代码和数学题上也频繁启动推理。


最终,Kwaipilot 团队提出了一种分布式奖励的强化学习算法:Step-SRPO。在 Step-SRPO 框架中,模型先进行“推理必要性评估”,判断每个问题是否需要深入思考,以避免对简单问题浪费计算资源。


随后,通过双重奖励机制引导学习:判断奖励(Judge Reward)根据模型是否正确选择推理模式打分,鼓励准确判断推理需求;答案奖励(Answer Reward)依据最终回答的正确性和质量进行评分,并结合判断奖励进行调整,确保回答质量和推理选择相一致。



数据显示,由于强化学习的奖励策略,模型选择思考模式的比例不断降低。



模型在训练阶段,由于强化学习的奖励策略,模型开启 think-on 的比例不断降低


这种趋势在测试集上的表现更为明显,模型在多个测试集的平均 token 数下降了 20%-30%,其中复杂推理榜单(例如 AIME 2025/2024、LCB、GPQA) 变化趋势最小,但是相对简易榜单的比例下降趋势更为明显。


模型在测试集合,模型开启 think-on 的比例不断降低


Step-SRPO 让模型在训练中逐步学会既能保持高准确性,也能根据问题难度灵活调整推理深度,最终实现在模型性能上涨的前提下,还能进一步降低 token 的使用,提升了模型输出 token 的思考密度以及对是否应该开启思考模式判断的智能程度。


强化学习训练后,KAT-V1 40B 成功学会了自动在某些简单问题上切换到非思考模式,模型性能在保持和 DeepSeek-R1-0528 接近的水位下,平均 token 消耗降低。


约为 DeepSeek R1-0528 85%左右的 token 消耗量


四、复杂推理能力对标 R1-0528


经过专项训练后的模型,对于困难的问题会首先进行判断难易程度,然后进行思考并给出解题过程及最终步骤。

小球在六边形内运动


这里以前段时间较火的小球问题举例,让大模型写一个程序,模拟小球的运动。


"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically" (编写一个 Python 程序,展示一个在旋转六边形内弹跳的小球。小球需受重力和摩擦力影响,并能够根据旋转的六边形墙壁实现真实碰撞反弹效果。)



KAT-V1-40B 编写的小球运动代码表现自然,且比较真实的反映了物理世界中重力和摩擦力的影响,满足了题目的要求。



对比 O3-mini 与 DeepSeek-R1 生成的代码看起来也更流畅自然。


为了测试模型的多轮对话能力,我们给题目的难度再升升级,让模型能够模拟小球尾迹,并且当用户按下空格时,小球数量增加,并且希望模型可以正确处理小球之间的碰撞,再经过新一轮的对话后,模型写出了以下代码:


AutoThink 实际使用体验


在代码生成方向,由于编程相关问题往往更加复杂,而这种 “pre-think” 的推理形态也展现出更强大的问题理解能力以及规划能力。


在复杂的 SQL 优化例子中,KAT-V1-40B 自动启动其思考模式。在 15 秒的思考时间内,提供了结构化的多步骤分析,而另一款推理模型则需要 53 秒,KAT-V1-40B 还给出了问题的分析和路径的规划,在深度、架构洞察力和可扩展性建议方面要优于另一款推理模型。


在处理不需要思考的问题时,最先进的推理模型仍然会进行不必要的逐步分析,生成近 400 个 token 的冗长回复,并产生额外的 17 秒延迟。


相比之下,KAT-V1-40B 正确地识别了任务的简单性,迅速激活了非思考模式,并生成了高质量的回复,这种特性进一步巩固了其在实际部署中的实用价值:



当前的思考模型相比非思考模型,往往在复杂场景不能很好的识别用户意图。而在这种场景下,由于这种“pre-think”的过程存在,往往能结合用户意图和问题进行更详细的方案设计与规划。


除了自主思考控制之外,KAT 模型还支持用户通过简单的意图指令(例如显式的思考或非思考偏好)来引导模型是否开启思考模式:


KAT-V1 的思考形态也适配了智能体模式,模型可以在多智能体的场景中,准确地在思考与非思考之间切换。例如,文件检查期间禁用推理,并在需要诊断或代码生成时主动启用深度推理和基于工具的探索。、


以下是一个模型和 Kwaipilot 产品中 智能体代码生成功能 协同作用的例子:

五、结语


Kwaipilot 团队在过去几个月里已开源多款覆盖推理、编程、Embedding 等领域的模型。在后续的工作中,我们将详细介绍完整的 AutoThink 训练框架,并计划开源相关训练数据、强化学习代码库,以及 1.5B、7B 和 13B 等不同规模的模型。此外,AutoThink 框架未来有望扩展到多模态和交互式智能体应用,进一步提升模型的可控性与通用性。KAT-V1 的 200B 参数的 MoE(Mixture-of-Experts)变体也有望在训练完成后向社区开放。


感谢大家关注 Kwaipilot 近期的工作,道阻且长,行则将至,我们会在大模型的探索之路上砥砺前行。


- END -

用户头像

快手技术

关注

还未添加个人签名 2024-05-15 加入

快手官方技术号,即时播报快手技术实践的最新动态 关注微信公众号「快手技术」

评论

发布
暂无评论
快手 AutoThink 大模型 KAT-V1 正式开源,40B版本比肩满血版R1,技术报告全公开!_开源_快手技术_InfoQ写作社区