写点什么

AI 时代的数据智能跃迁:数据、工具与组织的进化

  • 2025-06-26
    北京
  • 本文字数:3271 字

    阅读完需:约 11 分钟

资料来源:火山引擎-开发者社区

生成式人工智能领域正在经历显著的模式转变,伴随其向 Agentic AI 演进,数据应用能力也在经历从量变到质变的跃升。

数据价值如何突破认知的边界?

工具能力如何从辅助走向协同?

人与智能体间如何重新定义协作关系?

这些思考与答案,关乎技术的前行轨迹,也指向一种将被重新定义的未来生产力图景。

2025 年 6 月 11 日,在北京举行的火山引擎 FORCE 原动力大会上,火山引擎数智平台负责人郭东东进行了分享。透过实践棱镜,探索这组发生在数据资产、使用工具和组织形态上的三重跃迁。

以下为演讲全文:

大家好我是郭东东,来自火山引擎数智平台。今天我想和大家一起聊聊在 AI 时代,数据智能发生了哪些变化。

作为数据人,我们习惯用数据说话,让我们一起看 IDC 的预测数据:到 2028 年全球数据总规模将飙升至 393ZB,超过 80% 为非结构化数据。

Gartner 也曾公开预测,到 2027 年,40%的生成式人工智能解决方案将是多模态解决方案。这一数字与 2023 年的 1% 相比,堪称飞跃式增长。

这意味着,未来 AI 不仅能 “读文字”“看图像”,更能 “听声音”“辨视频”,以更接近人类感知的方式理解世界。

当 AI 突破传统 “单模态” 的局限,向人类感知智慧靠拢,那么我们和 AI 的关系也将从指令执行更迭到共同探索。

这已经不是简单的工具与使用者关系,而是一个新的纪元——人与 AI 高度协同,实现 “1 + 1 > 2” 的效应。

对数据平台来说,Agentic AI 时代极具变革性,它不只是技术迭代,更是对平台的重塑,是从基建逻辑到应用模式的全面变革。

过去,我们提数据智能,更多是通过产品实现业务数据的可见、可分析,提供科学决策的数据依据。

但 AI 时代的新数据智能,将会是 Data 与 AI 深度交织,模拟未知、提供解法、完成落地,创造价值。

数据、工具与组织都将发生进化。

数据进化:

探索多模态数据融合的无限可能

首先数据的进化:本质上是在探索多模态数据融合的无限可能。

数据智能的前提是挖掘数据价值,使之成为企业资产应用到业务中。大部分企业对数据资产的挖掘停留在结构化数据,非结构化数据尚未被很好利用,更别提多模态数据融合。

因此,我们首先要重构数据建设的底层逻辑:

1.处理对象上:从单一结构化数据转向多模态融合数据。

2.同时兼顾数据规模增长下的存储成本与数据挖掘效能的平衡,既要存得便宜,又要用得高效。

3.另外,大量非结构化数据包含着繁杂的信息,萃取高质量的标注数据也是数据进化的重要点。

为此,我们呼吁大家升级存储和计算能力,构建多模态数据的处理框架。

去年,我们发布了火山引擎多模态数据湖解决方案,今年进一步迭代,为企业提供新一代 AI Native 的数据基建。

1.首先是多模态数据的处理场景上,我们提供更易用的湖处理方案,帮助用户快速解锁多模态数据的价值,降低数据使用的门槛。

用户可直接在 AI 数据湖产品的 MCP 工具中用自然语言的方式输入数据处理需求,比如对低清图片提出增强高清诉求,实现图片批量处理。

2.其次,在模型训练上,提供低成本高性能的模型数据处理与蒸馏方案。

通过与火山方舟的无缝衔接,数据零拷贝,让用户能直接在可视化界面上一键开启回流按钮,将推理数据同步至 LAS,进行快速处理,筛选出高质量数据一键导出至方舟用于模型精调。

3.最后在海量数据批量向量化与检索上,火山引擎多模态数据湖提供了湖检索和湖分析能力,ByteHouse 和 AI 数据湖服务 LAS 联动,实现多种模态的快捷检索。

通过 LAS 完成多模数据向量化转换,利用 ByteHouse 实现向量检索特性分析,实现以图搜图。

火山引擎多模态数据湖,具备:

1.支持 GPU+CPU 异构计算,大幅提升模型训练中数据处理的资源使用率

2.采用开源技术并提供企业级能力增强,在计算存储、管理应用等多个层面,层层解耦,支持灵活接入,更易集成

3.引入新型 Ray、Lance 等前沿技术栈,持续帮助企业享受领先的技术红利

4.联动火山机器学习平台、火山方舟平台、数据智能体等,实现多场景一站式自由流动

我们希望通过多模态数据湖帮助企业搭建适应 AI 时代的数据基础设施,从单纯支撑 BI 报表,转变为驱动 AI 模型训练与决策的核心燃料。

图中是一家知名汽车品牌,近年来专注智驾网联场景,火山引擎多模态数据湖解决方案帮助客户在端到端的大模型训练场景中,实现了三大收益:

1.模型训练上:基于 MR Ray Remote Dataloader 帮客户解决 CPU 满载的问题,将数据加载效率提升 2 倍,从而整体将模型训练迭代效率提升至 1.5 倍。

2.资源利用上:GPU 单卡并发,支持多个并发标注推理模型,充分利用计算资源,单卡 GPU 整体利用率提升至 95%以上,为客户节省了较大的资源成本。

3.成本节约上:LAS Lance 替代 LMDB,在数据预处理阶段,无需重写全量数据,客户仅需关心新增的标签列,减少大量的 GPU 消耗,同时 Lance 支持压缩,进一步减少存储空间,成本降至 1/4,管理更高效。

工具进化:

从机械化到智能化的跨越升级

除了数据的进化,全新的数据智能还体现在工具能力的跨越式升级上。回顾工具的演进历史,我们清晰可见一条从 “机械化” 到 “智能化” 的升级路径:

1.机械化阶段:通过手动工具,人力驱动解决部分体力劳动提升基础效率问题。

2.信息化阶段:通过代码开发实现业务流程化数字化,实现流程标准化、数据结构化,通过 API 集成实现数据流动自动化,但本质上仍是 “人主导、机辅助” 的模式。

3.AI 阶段:借助 MCP、A2A 等技术框架,工具首次具备拟人化的流程推理能力,实现 “数据发现 — 分析决策 — 行动执行” 的全链路自动化。

这种进化的本质,是工具从 “人类的延伸” 升级为 “协作伙伴”。

当工具能自主完成大部分重复性工作,人便得以解放双手,聚焦战略规划、创意创新等高价值命题 —— 这也是 AI 时代生产力工具革命的核心逻辑。

组织进化:

人机协作,重构企业组织模式

最后一个进化是来自企业组织的内部进化。

在传统企业组织模式中,一线员工信息获取的成本既体现在时间上、也体现在门槛上。导致大量一线员工往往陷入繁杂的数据搬运工作中。

同时,企业大量专业知识传承依赖于人传人模式,这种模式导致组织人才培养变得很重。

新的数据智能下组织形态发生了变化:组织变成了人与 AI 的充分融合,从 “人力驱动”的组织 到 “人机协作”的组织。

一线员工可以从繁杂的“数据搬运工”和“产品推销员”,升级为能为每位客户提供精准、个性化服务的“顾问”;数据专业人士可以从重复性工作中解放,聚焦高价值的创造;同时还将解决企业人才培养难,知识传承难的组织问题。

在今年 4 月我们首次公布了 Data Agent——新一代企业级 AI 数字专家的理念。

1 个月过去了,我们想请大家一起看看最新的能力演示。

火山引擎 Data Agent 是一个聚焦企业数据垂直领域的智能体。目前可以实现业务数据全域贯通、深度理解和运用企业数据资产,根据需求,自动调用企业内部知识库、SQL、Python 等工具,或者联网搜索等,同时它还能持续学习和优化……

在 Data Agent 的开发过程中,我们和企业客户充分沟通、紧密共创,发现它在企业用数的简单场景与复杂场景中都能发挥提效的价值。

在简单问数领域:以科技驱动的旅游分销服务商——道旅科技,借助 Data Agent 智能问数,实现普通问数从几个小时取数,变成对话式即刻可得,企业分析效率提升了 50%,市场响应速度也加快了 30%。

在深度研究能力的邀测中:一家全球知名的运动服饰品牌,在体验后发现,过去团队多个资深分析人员 + 多种工具协作,7 天才能产出一个营销活动的复盘报告,现在 1 小时就能拿到深度分析报告,分析深度和广度也显著增强。


Data Agent 自从 4 月首次公布理念后,一直受到了大家热烈的关注,非常感谢大家的支持,今天 Data Agent 将正式上线售卖,为企业提供智能分析、智能营销两大场景的智能体能力:

智能分析 Agent 定位 AI 深度思考与大数据分析洞察研究专家,目前提供:智能问数、深度思考、智能体构建等能力。

智能营销 Agent,定位新一代 AI 销决策中枢,目前可提供营销策略 Agent 和智能会话助手两款子产品。

以上是我们认为 AI 时代的数据智能将带来的三个进化:

数据进化定义企业数据新资产;工具进化定义企业生产力新工具;组织进化定义企业生产力新关系。

我们相信,通过 Data 与 AI 的深度交织,新的数据智能将能帮助企业构建面向 AI 时代的好基建,成就好模型,促生好应用,带来好增长。


用户头像

还未添加个人签名 2022-01-25 加入

还未添加个人简介

评论

发布
暂无评论
AI时代的数据智能跃迁:数据、工具与组织的进化_AI_火山引擎开发者社区_InfoQ写作社区