模型调优的第一性原理

2025-11-24
广东
本文字数：6347 字
阅读完需：约 21 分钟

模型调优：概率计算干涉的技术体系

一、核心公理：预期概率最大化

大模型调优的第一性原理，源于这样一个技术公理：所有输出均是在输入 $x$ 的条件下，词表 $V$ 中各词 $y$ 的概率分布 $P (y ∣ x)$ 的具象结果。无论上层场景是“补知识”、“教行为”还是“顺偏好”，其技术本质都是通过精准干涉概率计算链路，实现预期输出 $y_{exp}$ 的概率 $P (y_{exp} ∣ x) \to 1$ ，非预期输出 $y_{neg}$ 的概率 $P (y_{neg} ∣ x) \to 0$ 。

该公理的技术支撑是Transformer的核心计算链路，所有调优技术均围绕此链路的可变量展开（不可变量为固定的网络结构），各环节的核心计算逻辑与标准流程可公式化描述如下：

输入表征：将文本输入转化为模型可识别的向量形式，融合词语义与位置信息

$E = TokenEmb (x) + PosEmb (x), E \in R^{n \times d}$
其中， $n$ 为序列长度， $d$ 为嵌入维度， $E$ 是后续所有计算的“语义起点”，其向量分布直接决定初始语义表达的精准度。

语义交互：通过Attention机制计算词与词的关联权重，实现语义信息的聚合

$Q = E \cdot W_{q}, K = E \cdot W_{k}, V = E \cdot W_{v}$
$Attention (Q, K, V) = Softmax (\frac{Q K ^{T}}{d _{k}}) \cdot V$
$W_{q} / W_{k} / W_{v}$ 为投影矩阵， $d_{k}$ 为 $Q / K$ 的维度（通常 $d_{k} = d / h$ ， $h$ 为Attention头数），这一步是模型“语义关联偏好”的核心来源，权重分布直接反映词间语义依赖强度。

特征转换：通过FFN（前馈网络）对Attention输出的特征进行非线性映射，捕捉复杂关联

$FFN (H) = Gelu (H \cdot W_{1} + b_{1}) \cdot W_{2} + b_{2}$
$H$ 为Attention输出特征， $W_{1} / W_{2}$ 为FFN投影矩阵（通常 $W_{1} \in R^{d \times 4 d}$ ， $W_{2} \in R^{4 d \times d}$ ），Gelu激活函数通过引入非线性表达，让模型能捕捉非显性的语义关联。

输出投影：将最终层特征映射到词表维度，生成原始得分（ $L o g i t s$ ）

$Logits = H_{final} \cdot W_{out} + b_{out}$
$H_{final}$ 为最后一层特征， $W_{out} \in R^{d \times V}$ （ $V$ 为词表大小）， $L o g i t s$ 的数值直接决定后续概率分布的偏向性，是概率干预的关键节点之一。

概率归一化：将 $L o g i t s$ 转化为0-1区间的概率值

$P (y ∣ x) = Softmax (Logits)$

调优技术的核心，在于通过干预上述链路中的可变量（输入表征 $E$ 、投影矩阵 $W_{q} / W_{k} / W_{v}$ 、FFN参数 $W_{1} / W_{2} / b_{1} / b_{2}$ 、输出矩阵 $W_{out} / b_{out}$ 、 $L o g i t s$ ），改变最终的 $P (y ∣ x)$ 分布。

二、干涉路径：输入与参数二分

大模型的概率分布是模型输入与模型参数的函数，即 $(P (y ∣ x) = f (x; θ)$ （ $θ$ 为模型所有可学习参数），调优的本质是通过更新 $θ$ 或修正 $x$ ，让 $f (x; θ)$ 满足预期分布。因此，所有调优技术可划分为输入侧与参数侧两大干涉路径。二者并非对立关系，而是基于场景需求的互补：输入侧更轻量，擅长动态适配；参数侧更聚焦，倾向重构固化。

2.1 输入侧干涉：无参数修改的概率引导

输入侧干涉的核心逻辑是不触碰模型内核参数，仅优化输入信号表征。通过调整输入表征 $E$ 的数值分布，为概率计算注入偏向性初始条件，本质是在计算起点修正语义向量，引导后续Attention/FFN的特征聚合方向。

该路径的核心优势是低成本、高灵活、无遗忘风险，无需大规模算力支持，但因未触及模型参数，干涉强度相对有限，无法改变模型深层的概率计算偏好，更适合快速验证、动态知识补充、多场景轻量适配等场景。具体技术可分为硬提示、检索增强、软提示三类，其精度与成本呈梯度提升。

2.1.1 硬提示工程（Prompt Engineering）

技术原理：通过人工设计的领域文本（如“基于 NCCN 指南，用通俗语言回答肺癌诊疗问题”）拼接至原始输入 $x$ 前，本质是在 $E$ 中新增人工语义向量 $E_{prompt}$ ，使 $E^{'} = [E_{prompt}, E_{x}]$ 。 $E_{prompt}$ 通过 $Q / K / V$ 投影改变Attention的相似度计算权重，从而提升领域相关词的交互概率。

技术局限：硬提示依赖人工对人类意图的文字转写，必然存在自然语言到词嵌入的语义损耗——人工期望的专业易懂的输出，可能因模型嵌入空间的映射偏差，被解读为术语堆砌或表达模糊，导致概率引导精度有限。此外，硬提示的效果高度依赖工程师的领域经验与prompt设计技巧，泛化性较差，仅适用于简单、无歧义的任务场景（如固定格式信息提取、简单问答）。

2.1.2 检索增强生成（RAG）

技术原理：通过向量数据库检索与 $x$ 高度相关的领域文档 $D$ ，将 $D$ 的向量表征 $E_{D}$ 拼接至 $E_{x}$ ，形成 $E^{'} = [E_{x}, E_{D}]$ （或 $E^{'} = [E_{D}, E_{x}]$ ，根据任务场景调整顺序）。 $E_{D}$ 为模型提供动态语义补充，使Attention计算时能关联文档中的领域知识，为目标输出提供明确的概率依据。

技术关键：RAG的概率优化效果核心取决于三要素：①检索召回率（Recall@K）：召回的 $E_{D}$ 越精准，对 $P (y ∣ x)$ 的引导越有效；②文档向量质量：需通过领域适配的编码器（如基于BERT的领域微调模型）生成向量，避免语义失真；③文档更新延迟：动态场景需保证文档更新至向量库的时效，避免知识过时导致的概率引导偏差。其核心优势是支持知识实时更新（修改向量库无需重训模型），适合金融行情解读、法律新规适配、电商库存查询等动态场景。

2.1.3 软提示调优（Prompt Tuning）

为解决硬提示的语义损耗与泛化性问题，软提示调优成为输入侧干涉的进阶形态——摒弃依赖人工的文本提示，转而通过训练生成模型原生可懂的向量引导信号。

技术原理：在输入层前拼接 $K$ 个可学习的软提示向量 $P_{prompt} \in R^{K \times d}$ （ $K$ 通常取20~30，过短则语义表达不足，过长则训练成本与冗余度上升），使 $E^{'} = [P_{prompt}, E_{x}]$ 。训练过程中， $P_{prompt}$ 通过反向传播持续优化，最终形成能最大化 $P (y_{exp} ∣ x)$ 的向量分布，直接适配模型嵌入空间，彻底消除语义损耗。

技术效果：软提示的训练学习率通常高于LoRA等PEFT技术，因仅优化少量向量参数，需更高学习率保证收敛。实验显示，在医疗问答、法律条文解读等领域场景中，软提示能使领域核心词的 $P (y ∣ x)$ 较硬提示有所提升，但仍受限于仅作用于输入层的干涉范围，无法修正模型深层语义偏好（如复杂逻辑推理中的关联偏差）。

2.2 参数侧干涉：深度重构的概率优化

相较于输入侧的外部引导，参数侧干涉深入模型内部，通过修改核心参数直接重构概率计算规则。

其技术本质是调整语义交互、特征转换或输出映射的数学逻辑，干涉强度远高于输入侧，能从根本上改变模型的深层概率偏好，但需承担参数修改带来的算力成本，以及可能发生的灾难性遗忘风险（即模型在学习新领域知识时，显著丢失原有通用能力的现象）。

基于目标实现与成本控制相权衡的工程逻辑，参数侧概率干涉技术可以按结果导向与过程导向来进行分类：前者聚焦参数优化的目标效果，后者聚焦如何用最少参数来实现该效果。

2.2.1 结果导向：定义概率优化的目标

结果导向的参数调优技术通过损失函数将概率偏好量化为数学指标，引导模型参数向目标方向迭代，具体可分为无监督、强监督、偏好对齐三种目标形态，对应“补知识”、“教行为”、“顺偏好”三类业务场景。

继续预训练（CPT）

面向无监督目标，核心是让模型学习领域语言规律。通过海量领域无监督文本（如医疗文献、法律条文）延续预测下一个词的预训练任务，本质是让模型学习领域特有的词共现概率分布（如“骨转移”与“唑来膦酸”、“缔约方”与“违约责任”的强关联）。

继续预训练的数据质量直接决定优化效果，一般来说需满足领域相关性≥90%（通过 TF-IDF 或 BM25 计算）、去重后重复率≤3%，且数据量≥100 万条短文本或≥10 万条长文本（如论文、法规），才能形成稳定的领域概率偏好；此外，数据预处理需包含去噪（过滤低质内容）、分词优化（领域术语保留）等步骤。

监督微调（SFT）

面向强监督目标，通过 $x \to y_{exp}$ 的标注样本，直接学习输入输出的概率映射。样本为任务专属（如“症状描述→疾病诊断”“用户咨询→客服回复”），使模型参数聚焦于任务特定的 $P (y_{exp} ∣ x)$ 优化。

监督微调适合任务目标明确、标注样本充足（通常≥1 万条）的场景，如文本分类、结构化信息抽取、固定场景问答等；其局限性在于对样本质量敏感，若样本存在标注偏差，会导致模型概率分布偏移（如过度拟合标注错误样本）。

直接偏好优化（DPO）

面向相对偏好目标，解决SFT输出正确但不符合用户偏好的问题。通过（输入 $x$ ，好答案 $y_{p}$ ，差答案 $y_{n}$ ）的三元组样本，不直接教模型输出什么，而是引导它优先选什么，核心是优化 $P (y_{p} ∣ x) > P (y_{n} ∣ x)$ 的概率关系。

直接偏好优化无需训练额外的奖励模型（RM）和执行强化学习（RL）步骤，仅通过对比概率差即可实现偏好对齐，是当前性价比最高的偏好优化技术；但需保证三元组样本的偏好区分度（如 $y_{p}$ 与 $y_{n}$ 的差异明确，无模糊性），否则会导致偏好引导失效。

2.2.2 过程导向：降低概率优化的成本

全量微调虽能实现彻底的概率重构，但百分百的参数修改量不仅算力成本极高（如大模型需千卡集群支持），还易引发灾难性遗忘，仅适用于资源充足、领域与通用场景差异极大的情况。

为解决这一矛盾，过程导向技术聚焦成本控制，核心是参数高效微调（PEFT）——通过冻结主体参数、仅训练新增小模块的方式，在不丢失通用能力的前提下实现精准概率干涉，成为工业界的主流选择。

低秩适配（LoRA）

聚焦Attention层的精准优化，是目前应用最广的PEFT技术。其核心假设是领域语义关联具有低秩性——即领域内关键的语义关联（如“症状-疾病”“需求-产品”）可通过低维度矩阵高效表示，无需修改完整投影矩阵。

技术实现：在Attention的 $Q / V$ 投影层（部分场景可扩展至 $K$ 层）插入低秩矩阵对（ $A \in R^{d \times r}$ ， $B \in R^{r \times d}$ ， $r$ 为秩，通常取8~32），且 $Q$ 层与 $V$ 层使用独立的低秩矩阵对（避免语义干扰），修改后的投影计算为：
$Q = E \cdot (W_{q} + A_{q} \cdot B_{q}), V = E \cdot (W_{v} + A_{v} \cdot B_{v})$
成本效果：仅训练 $A_{q} / B_{q} / A_{v} / B_{v}$ 矩阵，参数量≈ $2 \times d \times r \times h$ （ $h$ 为Attention头数），仅为全量微调的0.1%~1%，却能实现相近的概率优化效果。
适用场景：尤其适合语义依赖型任务（如问答、信息抽取、对话生成），长序列任务中仍能保持稳定效果（低秩假设对长文本语义关联依然成立）；局限性在于对非低秩语义关联场景（如创意生成、复杂逻辑推理）效果有限。

适配器调优（Adapter Tuning）

聚焦层间特征转换，更适合多领域场景。

技术实现：在Transformer层间（Attention/FFN后）插入小型适配器模块，通过非线性转换强化领域特征，模块计算为：
$H_{adapt} = Gelu (H \cdot W_{down} + b_{down}) \cdot W_{up} + b_{up}$
其中 $W_{down} \in R^{d \times r}$ ， $W_{up} \in R^{r \times d}$ （ $r$ =64~128），模块参数量≈ $2 \times d \times r$ 。
核心优势：不同领域的Adapter可独立存储（各领域模块体积≤100KB），推理时动态加载，切换成本<1 秒，适合多领域并行服务（如同时支持教育、招聘、客服任务）。
应用局限：推理延迟比LoRA高约5%~10%（新增模块增加计算步骤），需在多领域灵活性与推理效率间权衡。

输出层调优（Head Tuning）

聚焦特征到词表的直接映射，干涉强度极高但泛化性弱。

技术实现：仅微调输出投影层的 $W_{out}$ 和 $b_{out}$ ，直接放大领域词的 $L o g i t s$ ，参数成本为 $d \times V + V$ （ $V$ 为词表大小）。
适用场景：适合文本分类、领域关键词生成等简单任务，见效快（训练周期仅为LoRA的1/3）。
应用局限：未优化模型内部语义理解，仅通过放大输出权重调整概率，在复杂推理场景中易出现概率偏移（如输出词正确但逻辑不通、上下文矛盾），且领域迁移性差（换领域需重新微调输出层）。

三、技术组合：全链路优化策略

单一技术的干涉范围有限，难以覆盖“补知识+教行为+顺偏好”的全链路概率优化需求。技术组合的核心是让不同技术在概率计算链路的不同节点形成互补，实现成本与效果的平衡。

选型原理

技术组合并非简单叠加，需遵循以下原则，才能最大化概率优化效果：

干涉节点互补：避免多个技术作用于同一链路节点（如同时用Prompt Tuning和Prompt Engineering，均修改输入表征 $E$ ，易导致语义向量叠加混乱，降低引导精度），优先选择Prompt+Attention+Output的跨节点组合，形成全链路闭环干预。
概率目标一致：所有技术需指向同一 $P (y_{exp} ∣ x)$ 最大化目标（如医疗场景均以“专业准确+通俗易懂”为概率优化方向，不可部分技术强调专业、部分强调简洁而无统一标准），避免概率分布偏移。
成本叠加最小：避免同时使用全量微调与多种高效微调技术，导致算力成本激增。通过输入侧技术（RAG/Prompt）与轻量调参（LoRA/Adapter）组合，控制参数成本在模型总量的小范围内。

从第一性原理出发进行可落地的技术决策，一般先分析信息属性，再组合技术模块，避免经验主义选型导致的算力浪费与效果不佳。核心是通过三大维度判断信息特征，为路径选择提供依据：

信息形态：
显性（可文字化、易检索，如法规条文、产品参数）→ 优先输入侧；
隐性（背景共识、经验性知识，如医疗诊断逻辑、行业潜规则）→ 优先参数侧。
生命周期：
动态（更新频率<1 周，如行情、库存、新规）→ 优先输入侧；
静态（更新频率>1 年，如领域基础知识、固定规则）→ 优先参数侧。
关联强度：
弱关联（辅助补充、非必需，如背景信息、参考案例）→ 优先输入侧；
强关联（任务必需、核心依赖，如“症状-诊断”“需求-解决方案”）→ 优先参数侧。

常见组合

基于信息属性组合输出初步选型，参考下表验证可行性（覆盖主流场景）：

RAG + LoRA

适用场景：高并发动态场景（电商客服、金融实时问答、库存查询）。
调优逻辑：RAG在输入层（ $E$ ）补充动态语义（如实时库存、行情数据、新规条款），解决知识时效性问题；LoRA在Attention层强化核心关联（如“投诉→安抚话术”“咨询收益→风险提示”），固化任务行为；二者结合既保证回答准确性，又满足高并发低延迟需求。
注意事项：需添加文档过滤机制（如相关性分数≥0.7 才拼接），避免RAG检索噪声，否则噪声 $E_{D}$ 会干扰LoRA固化的语义关联。

CPT + LoRA + DPO

适用场景：复杂领域核心任务（医疗诊断、法律文书生成、工业故障分析）。
调优逻辑：CPT通过无监督学习构建领域基础概率分布（如“症状-疾病”“法条-案例”关联），让模型“懂行话”；LoRA在Attention层精准优化任务核心关联（如“肺癌分期→治疗方案”“合同争议→维权依据”），让模型“会做事”；DPO在输出层调整偏好概率比（如“分点回答>大段文字”“专业术语+通俗解释>纯术语”），让模型“做得好”。
注意事项：训练顺序不可颠倒，需按CPT→LoRA→DPO执行，避免先做偏好优化再学领域知识，导致偏好引导失效。

Prompt Tuning + Adapter

适用场景：多领域轻量适配（教育/招聘/客服多任务、中小场景快速落地）。
调优逻辑：Prompt Tuning在输入层（ $E$ ）用软提示区分不同领域引导信号（如教育侧重“易懂性”，招聘侧重“专业性”）；Adapter在层间完成特征转换，适配各领域输出风格；多领域参数独立存储，切换灵活。
注意事项：Prompt Tuning与Adapter需领域绑定，不同领域的Prompt Tuning向量与Adapter模块一一对应，避免跨领域混用导致语义冲突。

四、总结展望：一切从计算出发

本文以“预期概率最大化”为核心公理，围绕Transformer概率计算链路，构建了输入侧轻量引导与参数侧深度重构的技术路径，形成了基于信息属性的调优选型逻辑。

未来，随着大模型向多模态融合、低资源适配、安全可控方向演进，概率干涉的边界将进一步拓展，但无论技术形态如何迭代，“预期概率最大化”的核心始终是调优的锚点。只要抓住概率计算的根本，就能为新场景下的技术创新提供底层逻辑支撑。

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/3bf0c06384e4cf5cbe53c189d】。文章转载请联系作者。

陈一之

关注

靡不有初，鲜克有终 2017-10-19 加入

让时间流逝

发布

暂无评论

创作场景