写点什么

当 AI 落地到了“深水区”:到底是 Prompt 不行、RAG 不够,还是该考虑微调了?

  • 2025-12-08
    北京
  • 本文字数:4417 字

    阅读完需:约 14 分钟

当 AI 落地到了“深水区”:到底是 Prompt 不行、RAG 不够,还是该考虑微调了?

这两年,大家对大模型已经不再停留在“技术演示多酷炫”,而是越来越现实地问一句:

“为什么模型看起来很强,但真要放进我们自己的业务里,用起来总差点意思?

尤其是——明明接入了私域知识库,效果还是不稳定?”

答案往往不在某一个“神技”,而是在你怎么 同时使用 Prompt、RAG 和微调,以及它们和业务的“耦合深度”。

 

先厘清三个“杠杆”:Prompt、基座模型和私域数据

当一个任务效果不达预期,核心问题其实只有三个:

● Prompt 写得不对 / 不完整

● 基座模型本身能力不够

● 任务本质上需要“学会你的业务”——也就是微调

 

很多团队一上来就纠结“要不要微调”,但顺序应该是:

● 先确认:任务能不能通过 Prompt 工程 + RAG + CoT 跑起来?

● 再判断:是不是已经快到上限,继续调 Prompt 收益很低?

● 最后才是:要不要把经验沉淀成微调数据、做一个“懂你的模型”

 

如何判断:现在还是 Prompt 问题,还是已经接近能力上限?

比起拍脑袋说“要微调了”,更靠谱的方法是做一轮 系统性评估

1、做一个“Prompt 梯度测试”

不要用一个 Prompt 打天下,也不要凭一两次问答就判死刑。

可以设计一个由浅到深的版本阶梯,在同一批评测样本上跑通:

版本 A:最小可用版

只定义一个角色:“你是一名严谨的风控专员 / 客服专家 / 投研分析师……”

加一条简短指令:“请根据下面的内容回答问题。”

版本 B:加示例(Few-shot)

选 3–5 条“业务认可的好答案”当作示范,如:“历史客服工单里挑出:问题 → 理想回复”

版本 C:加“过程引导”

强调思考步骤:

“请先判断用户意图,再判断情绪,然后给出处理建议…”

“请先列出推理过程,再给出最终结论。”

版本 D:加“格式与约束”

限制输出结构:

“请返回一个 JSON,对象包含 intent、emotion、action 三个字段。”

“每条建议后面请附上一条『为什么这么做』的简短说明。”

 

然后,针对同一批测试数据,看几件事:

● 准确率 有没有明显一路往上走?

● 输出稳定性(格式、字段完整性)是不是越来越好?

● 在版本 D 时,效果是否已经“很难再提升”了?

如果从 A 到 D,正确率能从 50% 提到 80% 甚至更高,说明 Prompt 工程还有不少空间,此时微调不是第一优先级。

 

但如果你发现:

无论怎么加示例、怎么拉长指令、怎么引导步骤,指标就是卡在一个水平上上不去,

尤其是在你已经把业务侧能想到的“好例子”都喂进去之后——

👉这往往意味着:要再上一个台阶,靠 Prompt 已经不够了。

是时候思考:“要不要让模型直接学习这些高质量示例本身?”

 

2、确认:是模型“真的不会”,还是你“没问到点子上”

有些任务,表面看是模型答不出来,其实是我们没有把问题问到“模型已掌握知识”的坐标系里。一个简单的诊断套路是做“知识探测”。

第一步:问概念

“你了解信用卡分期手续费的计算规则吗?”

“你知道什么是项目 IRR / NPV 吗?”

如果模型能说出一个八九不离十的定义,说明 相关知识并不是完全缺失的

第二步:问实战

“下面是某张信用卡的分期条款,请帮我算出用户选择 12 期时的总利息支出。”

“下面是一条投资项目现金流,请根据你刚提到的 NPV 公式,给出决策建议。”

如果你看到的现象是:

讲概念还行,一到实战就经常漏算、错算、忽视边界条件。

👉说明问题通常不在“模型没这方面知识”,而在于:

● 任务拆解不够清晰

● 指令没把约束条件说具体

● 测试数据里隐藏了太多“人类默认常识”,但没写在 Prompt 里

这种情况,比起“换模型”或“上微调”,更优先的其实是 继续打磨 Prompt 和任务定义

 

3、做一轮多模型对比,再决定是“换基座”还是“教会现有模型”

在确认 Prompt 和任务描述都比较到位之后,可以做一轮横向对比

● 用同一套指令 + 同一批测试样本

● 在不同类型的模型上跑:自家部署的开源基座/云上的商用大模型 API/以及你未来可能考虑迁移的候选模型

 

典型结论有两种:

所有模型都表现挣扎

大概率是:任务本身定义不合理,或者你的评估标准跟输入信息之间存在“信息不对称”(期待模型凭空知道一些没给的信息)

👉此时,与其换模型,不如回到业务侧重新梳理:

● 模型到底拿到哪些信息?

● 你希望它根据哪些信号做判断?

强模型能做得不错,目标基座明显拉胯

这说明确实存在能力 gap,选择就变成:

● 咬咬牙直接切换到更强的基座;

● 保留现有基座,用强模型输出来“带教”,在自家模型上做一轮 SFT / 蒸馏式微调。

 

现实里,对很多已经完成部署、打通权限、评估过合规的企业来说,频繁换底层基座的成本非常高——

这也是为什么越来越多团队会走一条折中路线:用更强的模型当 “Teacher”,批量产生高质量答案 / 打分信号,然后在自己的基座模型上做一次“有老师带的微调”。这么做的好处是:

● 一方面,保持了现有架构不被推倒重来

● 另一方面,又能借助强模型的能力上限,

把你的目标模型“扶一把”,逐步逼近你已经见过的最佳表现。

 

RAG:让模型“现查现用”的外脑,而不是万能钥匙

当你把内网知识库、合同文档、项目报告接进来,其实就是在做某种形式的 RAG(检索增强生成)。你可以把 RAG 想象成一位 非常勤奋的外包顾问

它自己不必记住你所有东西,但可以随时去翻:

● 最新规章制度

● 更新后的产品手册

● 客户往来记录、历史项目等

它的优势在于:上手快、更新快、有明确溯源

● 政策一变、文档一更新,下一次回答就能用到最新内容

● 对需要“说明来源”、“引用原文”的场景特别友好

但天然短板也很明显:它始终是个“外人”

● 能找到哪一条合同条款写了什么

● 却未必理解你们过去在类似条款上是怎么博弈、怎么决策的

它给出的答案往往是:

● “通用大模型的理解” + “你知识库里的原文片段”

● 专业度确实比纯通用模型高,但离“像你资深员工那样说话”还差一截

 

现实一点地说:RAG 非常适合解决“缺知识”和“知识变化快”的问题,让 AI 变成一个“随时翻档案的外脑”;但要让 AI 真正带上你公司的“思维方式”,往往还需要别的手段协同。

 

微调:从“懂行”到“懂你”的那一步

如果说 RAG 是外部知识的延伸,那微调更像是 把你的业务基因烤进模型本身

在微调中,你会用成体系的私域数据去“再教育”一个基础大模型,例如:

● 历史项目报告 & 复盘文档

● 标注过的客户案例、投研报告、分析框架

● 标准话术、风格统一的高质量输出

 

模型在这个过程中学到的,不只是“知识”,还有:

● 你们公司惯用的 分析路径

● 你们行业特有的 专业表达

● 你所在团队的 风险偏好与话语风格

 

最终得到的,是一种“老员工型 AI”:

● 不仅能做“法律问答”,还能“说出你们律所的味道”;

● 不仅能写“财务分析报告”,还能用你团队习惯的结构与逻辑;

● 不仅能回答“能不能做”,还能主动补上“我们过往类似项目是怎么做的、要注意什么”。

 

从技术角度看,微调并不是一上来就要“重构一切”,而是解决两类典型问题:

● Prompt / RAG 怎么调都稳定不了的模式性偏差

● 你希望 AI 不用每次都看完整上下文,也能天然按你那一套思路说话和判断

 

同时,对于很多对隐私和合规敏感的行业,“训练过程和推理全在本地” 也是选择微调的重要原因之一。

 

RAG 还是微调?关键是你要 AI 和业务“绑定到什么程度”

简单给一个直观的对比视角

更适合优先用 RAG 的情况:

● 业务知识更新快、变动频繁:政策解读、产品说明书、最新流程…

● 需要明确引用来源:回答里要能指明“来自哪一条文档、哪一段条款”

● 主要诉求是“查得对、找得到”:类似于智能检索 + 解释说明

在这种场景下,AI 更像一个:随时查资料的外部顾问把“知识广度”问题解决好即可。

 

更适合考虑加入微调的情况:

● 你希望 AI 能够复刻资深员工的决策模式:审合同看到的风险点、分析项目时的优先级排序、撰写方案时的表达框架与侧重点……

● 你已经有了一批高质量、可复用的历史成果:这些内容不是“随便写写”,而是你业务能力的结晶

● 你开始在乎:输出的风格统一度、多团队之间的经验共享效率、新人培养成本能不能被 AI 分担一部分

 

在这里,AI 不再只是一个“问答工具”,而是:把专家经验数字化、规模化复制的载体。

RAG 和微调不是对立面,而是 两条可以叠加的路径

● 用 RAG 确保“知识永远是最新的”

● 用微调把“经验、风格、判断逻辑”烤进模型

● 再用好的 Prompt 设计把两者“调度”起来

 

从“先能用”到“更好用”:为什么要提前准备一条微调路径?

对大多数企业来说,一个相对健康的迭代节奏可能是:

第 1 阶段:先跑起来

● 选定一个合适的基座模型

● 用 Prompt + RAG 搭出可用 Demo

● 跑一轮真实业务,收集典型问题 & 错误样本

第 2 阶段:用评估体系把问题看清楚

● 有一套自动 / 半自动评测脚本

● 不同 Prompt 策略、不同模型版本效果一目了然

● 能迅速定位:哪些是知识缺失、哪些是逻辑问题、哪些是风格不统一

第 3 阶段:顺势进入小规模微调试点

● 把业务方已经认可的“好答案”转成训练数据

● 用一套标准化的微调平台,快速试几个版本

● 用同一套评测体系,确认“确实变好,没有把别的能力搞坏”

第 4 阶段:把微调变成“日常化能力”

● 新的项目经验、标注数据不断沉淀

● 微调从“一次性大工程”,变成“持续迭代的产品能力”

 

在这个路径下,你不需要在一开始就高调宣称“我们要重度微调”,而是先通过 Prompt / RAG 把 ROI 见到眼前,一边运行一边积累高质量样本,当数据和需求都成熟时,自然而然开启微调。

也正是在这一步,一套把“评估 → 数据 → 训练 → 回滚”串起来的平台会非常关键:

● 它不会替代 Prompt 和 RAG 的价值

● 但能让你在需要更进一步时,有一条随时可以走的专业化升级通道

 

我们现在在做的,就是这样一类微调产品LLaMA-Factory Online:帮团队把“自动评测、样本管理、一键微调、版本对比和回滚”打通,让业务方只需要继续做他们最擅长的事——指出什么是“好答案”、哪些是“典型错例”,剩下的交给平台,把这些经验真正变成一个“懂你业务”的模型。

 

大模型的“下半场”:从拼参数到炼数据

● Prompt 决定了你“怎么跟模型说话”

● RAG 让模型“随时查得到你最新的知识”

● 微调则负责那一步:让模型真正长出你企业的业务习惯和判断逻辑

 

在大模型的“下半场”,拼的已经不是谁的参数更多,而是谁能更好地把 私域数据的深度,转化为 AI 的 专业度、稳定性和可复制性

你完全可以从“只用 Prompt + RAG”开始,但在设计整体路线图时,不妨提前问自己一句:当我们真的需要一个“像老员工一样的 AI”时,我们是不是已经准备好一条,能随时把经验烤进模型的微调路径?如果你已经走到“需要一条微调路径”的阶段,其实没必要从零啃代码、自己搭训练流水线。

因为,LLaMA-Factory Online 做的事情,就是把这条路铺平:在一个界面里完成数据管理、训练配置、监控评估和版本回滚,支持主流开源大模型(如 LLaMA、Qwen、Yi、Gemma 等),也覆盖 SFT、DPO 等多种微调范式和 LoRA / QLoRA 等轻量方案,让团队可以零基础上手、快速跑完一轮小规模试点,用数据说话,看一眼微调前后的对比,再决定要不要在这条路上继续加码。

用户头像

还未添加个人签名 2025-11-18 加入

还未添加个人简介

评论

发布
暂无评论
当 AI 落地到了“深水区”:到底是 Prompt 不行、RAG 不够,还是该考虑微调了?_深度学习‘’_LLaMAFactoryOnline_InfoQ写作社区