AI 的“炼油厂”革命: 没有数据治理,所有模型都是空中楼阁

Gartner 研究显示,生成式 AI 的爆发式发展推动企业加大技术投入,但 70% 的生成式 AI 试点项目因数据缺陷、治理缺失或价值证明失败而夭折,仅有 20% 能成功投入生产。
引言:一次家长会的启示
在一次普通的家长会上,老师指着白板上的一个三角形说道:“学生的成绩(顶点),取决于家长和老师(两个底角)的协同距离。我们彼此靠得越近,孩子的未来就站得越高。”如果我们将学生个人因素等同于三角形的面积,那么在三角形面积(个人因素)不变的前提下,要想增加三角形的高度(学生成绩),就必须要缩短三角形的底边(家长和老师的协同距离)。
这句话如一道闪电,击中了我这个数据从业者。环顾当下如火如荼的 AI 浪潮,无数企业投入巨资引入最先进的 AI 模型,却常常收获寥寥。这不正像只强调学校教育,却忽视了家庭教育的学渣培养模式吗?由此,一个旨在解释 AI 价值核心的 “价值协同三角”模型 在我脑海中清晰起来。
模型的提出:什么是“价值协同三角”?
该模型由一个简单的三角形构成:
Ø 顶点 C:AI 的应用价值。这是所有 AI 项目追求的终极目标,可能是效率提升、收入增长或决策优化。C 点的高度,直接代表价值的大小。
Ø 底角 A:数据。它是 AI 的生产资料,是燃料。
Ø 底角 B:AI 模型。它是 AI 的处理引擎,是机器。
核心法则:价值顶点 C 的高度,并非由 A 或 B 单方面决定,而是由底边 AB 的“协同距离”决定。AB 距离越短,C 点越高;反之,则价值越低,甚至导致不可预估的负面影响。
Gartner 的调查为这个模型提供了残酷的佐证:根据 2025 年最新的调研,高达 70%的生成式 AI 试点项目最终夭折,未能投入生产环境。这些项目失败的主要原因,正是指向了数据与模型之间的巨大鸿沟。
AI 是精密的新引擎,它需要“高标号数据燃料”
驱动企业经营管理智能化的 AI,如同一台高性能的内燃机或航空发动机。它并非“不挑食”,其高效、稳定、精准的运行,依赖于标准、纯净、一致的高质量数据。这就像现代工业的顶级引擎,必须使用经过精炼的特定标号燃油,才能发挥设计性能。
企业数据现状是“原油”,治理是必不可少的“炼油厂”
企业的现实数据生态往往如同未经开采和处理的原油:多源异构、杂乱无章、真伪混杂、关键字段残缺。这种原始状态的数据,能量密度低、杂质多,根本无法被 AI 引擎直接使用。
从“数据原油”到“AI 燃料”的转化,绝非自然发生。它必须通过系统性、工程化的数据治理来完成——这包括建立数据标准(制定油品规格)、清洗与整合(脱硫脱水)、质量管控(成分检测)、以及持续的血缘管理(全流程追溯)。数据治理,就是为企业的智能化转型,建造一座不可或缺的“战略炼油厂”。
反证:输入“错误燃料”,AI 引擎必然达不到设计效果
一个致命的误区在于,认为“数据大体能用,AI 就能产出预期结果”。这忽略了最根本的因果律:精密引擎的输出效果,直接且决定性地受其输入燃料的品质所支配。
Ø 核心逻辑是匹配,而非单纯好坏:一台根据 95 号燃油特性精密调校的发动机,一旦被加入 92 号燃油,其燃烧过程与电控逻辑将完全失配。结果并非引擎本身变差,而是系统整体无法按照设计蓝图工作 。它将立刻表现出动力疲软、运行不顺,绝对达不到工程师设定的性能预期,也兑现不了您购买这辆高性能汽车时所期待的那种驾驶体验。
Ø 对 AI 而言,低质数据就是“错误的燃料”:AI 模型本质上是一个由数训练和调校出来的精密算法引擎。它的设计蓝图和运行逻辑建立在所用训练数据的质量与特性之上。如果您注入的是未经治理的、低质量的错误数据,这就从根本上违反了它的运行条件。结果不是 AI 变笨了,而是整个系统无法按设计路径执行智能任务。它产出的会是不可信的预测、偏离实际的推荐或低效的决策,完全无法达到引入 AI 时期望获得的商业洞察与自动化效果。
Ø 商业预期为何落空:一个直观的例子:例如,公司期望通过 AI 客服机器人提升客户满意度与解决效率。但如果投喂给它的历史对话数据充满未被标注的投诉、重复提问和错误解答(低质燃料),那么训练出的机器人就会学会重复这些低效甚至激怒客户的模式。上线后,它不仅无法达成提升满意度的预期目标,反而可能导致客户体验降级,与投资初衷完全背道而驰。
数据治理的 ROI:短期成本与长期负债的抉择
结论:
因此,数据治理的首要作用,是确保输入 AI 的“燃料”符合其设计规格,以满足商业应用的预期效果。 而忽略治理,就等于允许向一台精密引擎灌注错误的燃油,却期待它如常工作。这违背了最基本的工程规律。在智能化道路上,对数据质量的严谨定义与控制,是实现任何 AI 项目预期价值的绝对前提,而非可协商的选项。如图所示,一个缺乏数据治理的 AI 项目生命周期,往往陷入价值难以兑现的恶性循环。
行动指南:如何利用三角模型推动 AI 成功?
统一共识,诊断评估:用这个简单的三角模型在企业内部沟通,并客观测量数据质量状态(A 点)与模型领域化水平(B 点)之间的“协同距离”。
双向规划,同步推进:制定并行的路线图:
Ø 数据治理路线图:超过三分之二的数据领导者计划增加数据管理投资,优先改善数据和流程的治理。构建“采集-清洗-标注-存储-服务”的全流程自动化智能数据管道至关重要。
Ø 模型优化路线图:91%的高 AI 成熟度企业已任命专门的 AI 负责人,其关键职责包括优先推动 AI 创新和交付 AI 基础设施。这意味着必须有人推动模型更“懂”企业。
建立闭环,持续迭代:63%的高 AI 成熟度企业已制定指标,通过定期量化 AI 项目效益并利用多维度评估来持续改进。建立从模型输出到业务反馈,再到数据修正和模型再训练的持续迭代闭环,让 AB 两点在动态中不断靠近。
结语
AI 的未来,不在于我们拥有多庞大的数据或多炫酷的模型,而在于我们能否促成两者最深度的协同。“数据-模型协同三角”模型提醒我们,AI 的征途是一场数据与模型的双向奔赴。
正如 Gartner 所观察到的,那些成功的 AI 项目,其核心在于 “基于业务价值和技术可行性选择 AI 项目,并建立健全的治理结构和工程实践” 。这恰恰是对缩短协同距离的最佳诠释。
唯有当数据与模型彼此靠近、紧密协作,我们才能共同托举起那个名为“价值”的星辰,照亮智能化的新纪元。
回到那个家长会的启示:当我们致力于缩短数据与模型的“协同距离”,便是在为 AI 的价值成长,构建最坚实的底座。
版权声明: 本文为 InfoQ 作者【治数有道】的原创文章。
原文链接:【http://xie.infoq.cn/article/ad1fa6f9b453d039965d45822】。文章转载请联系作者。







评论