Agentic Data 时代:让数据主动思考,驱动业务增长
资料来源:火山引擎-开发者社区
大多数企业都在面临一个尖锐矛盾:在企业日常经营过程中,明明数据总量激增,但真正有价值的数据却仍被“冰封”。
导致矛盾产生的原因有两个,一是部分企业缺少贴合业务的数据分析产品,无法释放数据价值;二是在 Agentic AI 时代,有的企业还未能拓展数据分析的边界,以为“1、2、3、4、5”才是可被使用的数据。
数据,可分为“结构化数据”和“非结构化/半结构化数据”。
前者常被人们所熟知,即以二维表形式存储、具有固定结构和严格格式的数据;后者则是结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,如文档、图片、音频、视频等。
在过去很长一段时间里,企业都只能凭借结构化数据的分析来完成业务决策,但这其实只占了企业整体数据资产的 20%。
如何才能把另外 80%的数据资产开发出来?
非结构化数据又将如何被业务所用?
带着这些疑问,我们来将回顾近期在 北京举行的火山引擎 FORCE 原动力大会,火山引擎 Data Agent 项目负责人海书山的分享。

以下为演讲全文:
大家好,我是海书山,很高兴有这次机会跟大家交流。
今天的题目叫“不完美智能的探索”。不完美智能是什么意思?大家都在做大模型相关的事情,我们认为大模型是一种不太完美的智能,数学不太好、有幻觉、可能会需要人来引导。
但其实仔细想想,在座每个人也是不完美的智能,我们可能有偏见、会遗忘、会受情绪影响。所以不完美的智能好像不是什么问题,主要是智能体是否有进化的潜力。
这个思考的起点,更多来自于客户的问题。我们是数据团队,每天接触到大量问题是关于数据的,比如马上到 618 了,零售客户会问 618 大促,我有同样的数据,同样的预算,为什么我的效果会比友商差一些?
还有一些银行客户花了大量的钱建设数据中台、指标中台、BI 系统,但是为什么业务部门还抱怨看不懂数据?还有需要做一些策略,有同样的调研数据、用户数据,拿不同的营销策略,我到底该相信谁?
看起来数据越来越多,工具越来越好,团队看似越来越专业,但是数据价值并没有因此直接释放出来。
这里问题是什么?是什么阻止了数据价值的释放?

第一,前面讲的都是非结构化数据,如果说结构化数据是冰山上面 20%,非结构化数据就是冰山下面的 80%,那么这些数据亟待被唤醒、使用。
第二,但哪怕是 20%的数据,其实解读数据的能力也是参差不齐的,同样一份数据,有的人看到的是数字,有的人看到的是趋势,还有人看到是模式和因果关系,但是专家的培养往往是很贵的。
第三是工具,现在大量用到的工具是指令式的,你给一个指令它给你一个答案,但是我们做 Agent 过程中发现,能问出一个好问题,其实是非常稀缺的能力,所以最危险的不是我们没有回答好问题,而是正确的回答了错误的问题。
最后是协作,市场部门发现一个问题,到分析团队看到的是数字,到管理层则是结论,信息在传递中失真,洞察在层级中消失。
这里的问题是原来的生产力和生产关系已经不适用,所以用传统方式好像没有办法继续让数据价值得到释放。

我们可以怎么做?
有一些思路,比如刚才提到非结构化数据,是不是把非结构化数据沉淀起来、传进来就可以用了?其实不是的。
现在我们也在经常探索和探讨的问题是,到底哪些数据优先级是高的?我们有文档、图片、音频、视频,加哪些数据是有争议的,应该用哪些方案加?是直接丢给大模型还是切片?人类可能是不擅长做这件事情的,但大模型天然适合于提炼数据和知识里边的因果关系,和一些模式。
第二,我们经常用数据产品解决数据问题,但是当我们看一个数据的时候往往是想要回答业务问题,如何把数据问题转化为业务问题,这是我们想解决的另外一个层面。
第三,如果前面两个问题解决了,但是依赖某一两个专家或者很少数的人,意味着团队能力还是集中在一小部分人手里,整个团队生产力没有得到极大的释放。
这三点是我们认为应该让数据开始主动思考,以及形成数据智能体的工作方式。

它在具体场景里面会怎么做?
我们看一个视频了解一下,还是 618 大促的例子,当我们需要做一些营销活动,但是想看一下历史数据做一下复盘,我们把问题输给它,它会做一些问题拆解,比如从文档里面拿到非结构化数据,从数据库里面拿到结构化数据,可能会写一些 Python 再做一些数据处理。
接下来它会生成一份完整的报告,报告里面有洞察的要素,我们可以找其中一个认为可以深究的问题继续追问它,然后得到更进一步的信息的整合。
比如说可以联网获取一些外部信息,在这个过程中如果有问题它会做智能的检查和纠错,最终生成一个报告的结论。接下来我们可以把它当做营销策略输入,和营销目标一起,给到营销的 Agent,我们希望它把这个目标转化为可用的营销策略。
它可以帮助我们根据营销目标定位具体的用户,再圈出来最可能下单那批,针对这部分用户设计触达方式,进行 1V1 精准触达,最后生成一个策略,然后做进一步的执行。
Data Agent 这个词儿不是我们最早提出来的,我们发的时候还查了一下,最近一两年有很多讲 Data Agent,但是我们是第一个把它定位为企业级数据专家,也就是一个人。
这有什么区别?
我们经常被问到你们跟传统的数据飞轮、数据产品,或者跟通用的 Data Agent 有什么区别?传统的工具其实它回答的是一个一个的问题,也就是靠人把任务拆解成问题,然后去一个一个回答,它不够自动化,所以它面向的是问题而不是任务。
通用 Agent 回答的是这个东西是什么,当你跟它说我的消费额为什么下降了?它会说根据我的理解销售额下降有季节、产品因素,它很通用,但是是一种“正确而无用”的状态。
但是 Data Agent 有两个层面变化:
1、Data 扩展到结构化数据、非结构化数据和未来的公域数据,通过 Data 内涵和外延的拓展,解决了通用 Agent 无法解决企业业务问题的缺点;
2、Agent 是什么?Agent 我们认为它是会主动思考、分析甚至进化。想象我们去招一个员工,你想招一个聪明的人,聪明的程度是什么?是大模型的智能水平。
随着大模型进化,这个员工会变得越来越聪明,随着私域知识沉淀,就会理解企业、行业,就能解决业务问题。所以把分析洞察和营销行动转化起来,打通了数据和最终业务成果之间的关系。

Data Agent 放在具体场景里面可以怎么使用?
比如,某个银行信贷业务上个季度下降了 15%,其实我们在传统的分析里边,我可以做归因树,按照某一些维度去归因,它归因到你的已知的维度。
现在 Data Agent 可以从结构化数据里面捞到销售数据、你的客户数据,甚至销售业绩数据,从非结构化数据看到客户文档,看到语音通话记录,再从外部的数据看到一些行业的趋势和你的竞对情况。
它从这里识别出一些模式,比如什么时候开始下降的,哪些维度贡献比较大,以及有没有场外因素导致的意外数据点,结合这些因素他会发现主要的原因可能是竞对发了一个新的产品,我方的反应比较迟钝。
那次要原因可能是大环境不好,客户需求下降了,同时发现一个机会,某一个细分品类里面有些方向可以发力——这种洞察在单一结构化数据归因里面是很难实现的,因为它来自于不同的来源的数据边缘所交汇的数据点,这是分析 Agent 所带来的洞察。

营销 Agent 更多是服务于增长。比如说某个电商平台要做夏季战役,我们要推一个新产品,但针对哪些用户,然后对什么样的策略其实是不清晰的。
首先营销 Agent 可以做智能圈群,把购买数据、行为数据、社交媒体数据融合起来,精确定位出人群画像和需求,然后再把这些数据里面识别出高潜购买客户做群体策略的生成。
群体策略就是我们可以针对这些用户设计触达方式、触达时机以及触达渠道。通过 AIGC 可以生成差异化营销内容,以实现 1V1 触达。
除了群体投放,还可以生成个体策略,总有一些低频高净值消费场景,比如说买房、买车或者说基金保险,那这些消费的频次很低,但是客户需要 1V1 更贴心服务,我们就可以整合更多的数据,让大模型对这个客户进行一些分析。
然后理解它客户的 profile 和 preference 消费喜好,在 1V1 沟通场景里面可以做针对性沟通话术引导,并且根据反馈可以持续迭代,形成动态的一客一策。
可以理解为营销 Agent 极大程度上提升转化,而且还能让团队的营销策略下限得到极大的提升。

整合起来看,我们是带来一些效率的变化,我们经常看到有很多场景会在分析里面用到,比如运营场景每天看报表,通过报表发现问题,找一些原因,找不到还要提需。
现在通过自然语言对话可以随时获取数据,数据不只是报表,可以做到自然语言对话实时分析。
还有是复杂分析场景,原来靠 BI 和 ChatBI 很难做到的,比如说复盘,比如说写周报,那可能原来的逻辑是说我要去找数据,我要去分析,写报告,甚至要开会讨论。
现在我也可以通过一些交互,通过 Deep Research 生成一些报告的初稿,通过这些报告初稿获取我想要的信息。

原来决策逻辑里面有很多是靠经验、直觉或拍脑袋,现在可以把这些想法和假设多跟 Data Agent 聊,可以发现会得到不错的交互和验证,这样把经验主义的决策逻辑变得更科学。
但是如果只做到这几个,我们聊的都是效率,其实我觉得更多的是 Deep Search,而不是 Deep Research。
Deep Search 就是说我把数据点收集起来了,我做一些总结,Deep Research 什么?是要有一些洞察。
企业最大风险不是来自于要更快解决掉已知的问题,而是对更大的风险点或者盲点的忽视,也就是不知道自己不知道什么,所以 Deep Research 真正应用的场景是启发式场景.
如果企业能够通过 Deep Research 找到一些启发,并且开启了一些解决未知问题的可能性,发现未知机会,这是我们看到它带来的核心价值。如果能够做到这个,企业就真正变成了数据驱动。
在数据驱动的模式下,从个人到团队都有一些升级,比如分析师从原来数据搬运工或者数据处理者变成可以得到更多的洞察,我们业务人员不依赖数据分析师,可以做自主业务分析,每人角色价值都得到比较大的提升。
随着个人能力升级,我们得到了数据分析或者数据应用能力的平权,知识的民主化。
在这个过程中会有一些变化,以前说数据是资产,或者说未来知识是资产,但是未来随着员工跟 Data Agent 交流的越来越多,所有人问的问题也是一种资产,专家问的问题和新手问的问题是不一样的,所以那这就实现了隐性知识的传承。
当个人和团队协作、角色都得到升级的时候,我们发现组织也会得到对应的升级,除了刚才说的决策时间变化之外,其实还有一个点就是我们会构建起一个学习型组织。
不知道大家用大模型多不多,当你跟大模型交互的过程中本身就是一个学习的过程,因为它会给你一些角度、启发,因为大模型是不断迭代的,我们跟大模型交互过程中每个人也都是在迭代的,工作场合里面我们必须跟大模型交互才能完成工作的时候,这本身就是一个学习的过程,所以学习型组织自然而然发生了。

如果它发生了,我们就会因此而得到一个组织的 DNA 重塑,但是如果它没有发生会变成什么?
因为我们经常会被问到问题是 Agent 或者大模型或者 Date Agent 是不是替人的逻辑?
我们经常会回答说,不是替代人的逻辑,因为它现在可能替不了人。它跟人是协作的逻辑。为什么说如果我们不拥抱这件事情还是很危险呢?
因为虽然它不是替代人的逻辑,如果不拥抱新的技术或者大模型,会极大程度上降低组织人才密度,因为对手在用人和 AI 协作,而你可能还是原来的人,就极大程度上降低了组织竞争力。
这也是很多企业在纠结,现在是不是要拥抱大模型,大模型应用或者开始引入 Agent,我们经常会问到这种问题,我们认为是的,我们在很积极投入这件事情,今年看起来有几个变化:
1、年初 Deepseek 的发布,Deepseek 是一个标志性事件,第一它让很多原来做不到的应用场景变得生产可用了,成本得到了极大降低,从而能让业务应用上生产;其次随着它的发布,也极大程度加速了基础模型迭代速度,这个变化还是比较明显的。
2、很多客户问的比较直接,现在投入是不是白投入了?能不能做一些不变的东西?其实我觉得数据不会变的,现在怎么用 Data Agent,未来就是怎么用新的领域大模型应用。所以我们数据能力,对于决策速度依赖不会变。
3、随着 2023、2024 年大模型底座建设的洗礼,其实企业也开始趋于理性了,原来经常是这件事情人做不到,让大模型帮我们做一下,今天很少听到这个问题了。
所以我们是看到更多企业愿意试错,更加务实的在,思考引入 Agent 或者引入大模型,跟业务的关系是什么,而不是要先建一个基座大模型,我再建一个管理平台,然后花了很多钱,但实际发现我在业务里面其实用不起来的。

为什么说现在还是比较好的时间值得做这件事情?有几个观点:
1、现在做还是有技术红利的,因为现在虽然很多企业开始更务实的思考这件事情了,但我们聊下来真的去很懂的,能把它落的很好,在业务里面产生价值的不多,这个阶段落地大模型应用场景还是能够打一个很好的去打一个智能差或者认知差。
2、经常有客户说你的产品是不是完美的?是不是足够好用的?在建设任何一个大模型应用过程中都要有一个过程,就像吃馒头不会吃第六个就吃饱了,前五个其实是有价值的。
这个价值对大部分企业来说是锻炼队伍,也就是说你的团队在采纳大模型、应用大模型过程中得到认知极大的提升,这是比较重要的。所以我们认为现在还是比较好的时机,拥抱大模型以及引入大模型应用。
回到开头的问题,我们用 Data Agent 可以做到更好的归因,数据中台、指标平台仍然可以不用替换,但是可以把这些数据更好用起来,通过自然语言交互挖掘数据价值,通过营销策略提升策略水平。

最后一页算是我们的自勉,我们做 Data Agent 的时间不长,但是也经历了很多的挣扎和探索,这件事情就是一个摸着石头过河的过程,比如对 Data Agent 定义、怎么解决幻觉问题,所有问题都是新问题。
在这个过程中,我们会发现不会有一个完美的答案或者完美的方案,但是我们在探索它的过程中,本身认知进化是比较快的。也希望有机会跟在座客户、合作伙伴共创,一起开始新的探索!

评论