写点什么

多模态数据湖焕新升级,企业新一代 AI Native 的数据基建

  • 2025-06-26
    北京
  • 本文字数:2642 字

    阅读完需:约 9 分钟

资料来源:火山引擎-开发者社区

在人工智能大模型与智能体应用迅猛发展的时代浪潮下,图像、文本、音视频等多模态数据量正以前所未有的速度持续激增。

面对海量数据,如何高效处理并充分赋能模型应用,进而构建契合 AI 时代需求的新一代数据基础设施,已然成为众多企业高度关注的焦点议题。

2025 年 6 月 11 日,在北京举行的火山引擎 FORCE 原动力大会上,火山引擎数智平台产品负责人王彦辉分析了当前数据基础设施领域的趋势和挑战,并介绍了基于“多模态数据湖”的新一代 AI 云原生数据基础建设方案。

以下为演讲全文:

大家下午好!我是来自火山引擎数智平台的王彦辉。今天我为大家带来多模态数据湖新一代 AI 云原生数据基建的分享。

首先,我们来看几个新的发展趋势。

根据 IDC 的预测,多模态数据规模从 24 年到 29 年在中国和全球范围内都处在一个高速增长阶段。6 年内增长 3 倍以上,年均复合增长率接近 30%。且 4 成以上的数据在云端产生,6 成以上的数据存储在云上。

另外,随着多模态大模型能力快速提升,以及 Agent 应用百花齐放,我们认为多模态数据的处理和加工需求会随之快速爆发。

新趋势下,我们回顾当前数据基础设施面临着新挑战。

一是多模态数据的处理能力不足,之前数据平台更多围绕结构化、半结构化数据处理来建设,多模态数据处理的能力储备不足。

二是数据碎片化严重,数据分散在各业务单元,缺乏统一、集中的管理,导致企业的 agent 应用难以和自身业务数据相结合。

三是数据质量问题,随着数据服务的对象转向大模型应用演进,如何度量数据的有效性和价值,已经成为数据团队新的挑战。

第四点是在人来消费数据,演进到用模型来消费数据,如何模型可以理解数据使用数据,需要新数据组织和管理方式,统一 Catalog、数据标签等能力亟待加强。

新挑战下,同样也孕育着新的机会。

过去二十年里,我们看到数据技术栈几次大升级。

在 PC 时代,人们还是通过报表和各种分析的工具来消费数据,由于数据规模快速膨胀,处理的数据量级从 GB 级别扩展到 PB 和 EB 级别,数据基础设施核心要解决计算和存储扩展性问题.

大规模、分布式是技术演进的趋势,诞生了 Hadoop、Hive 等一代大数据的开源技术栈。

随着移动互联网兴起,人们更多地通过 APP 和各种 API 来使用和消费数据,实时化成为对数据平台新需求,实时推荐和实时分析场景不断涌现,诞生了 Flink、Spark Streaming、Kafka 等技术栈。

在 Agent 时代,数据需要更多的和 Agent 进行交互,相互作用,驱动模型能力不断提升,新趋势下要求数据和模型能力更好的协同,数据基础设施也在向多模态数据湖、向量数据库和知识图谱等技术栈演进。

在这个大背景下,火山引擎推出了多模态数据湖的解决方案。

解决方案包括 4 个组成部分:

1.豆包、Deepseek 模型、以及 Ray 为核心的数据湖计算。

2 多模态数据湖格式 Lance 为核心的数据湖存储,可以部署在 Vepfs、Tos 等存储产品上,通过 Proton 实现缓存加速。

3.ByteHouse 实现多模态数据数据的检索和分析,实现对图片、音频等数据快速探查,数据问题可以快速定位和排查。

4.LAS 实现多模态数据湖的管理,包括统一的 Catalog 管理、数据集管理和多模态数据处理算子编排和管理。

多模态数据湖解决方案有以下方面的优势:

一是 GPU+CPU 的异构计算,CPU 用来做数据处理和加工,GPU 用来做大规模的数据推理和标注,通过有效的资源编排,可以大幅优化资源使用效率,降低用户资源成本。

二是开源和开放,方案主要采用开源技术栈,提供企业级能力增强,便于用户集成,避免云厂商锁定,保证了方案演进的灵活性。

三是采用了 Ray、Lance 等新一代技术栈,经过客户大规模的生产实践,为客户提供可靠性的保障。

四是与火山方舟、VeMLP 机器学习平台、Data Agent 密切联动,形成了完整的 AI 数据生态。

下面我们来看几个多模态数据湖的 Demo,直观了解下多模态数据湖是怎么运作的。

第一个例子,如果你想对图片数据进行一个批量的清晰度增强,你可以使用 AI 数据湖服务的数据集和数据算子能力。

在 Trea 中通过自然语言的方式输入你想执行的操作,通过 MCP Server 调用 LAS 的数据增强操作,完成数据处理的操作。

第二个例子,是一个数据检索和分析的例子,如何对数据湖中的数据进行快速检索和查询。

首先你可以在 LAS 中创建一个数据集,然后使用 LAS 中调用数据 Embedding 处理算子,对数据进行向量化。最后你可以通过 ByteHouse 完成数据相似度检索。

第三个例子,是一个数据蒸馏和模型微调的例子,用户可以在方舟平台蒸馏数据,数据可以一键回流到 LAS 中,在 LAS 进行清洗和处理,处理完成后用户可以微调自己的模型。

整个过程实现了 Data+AI 完整的数据生态闭环,我们也可以更直观的看到数据使用的场景正逐渐从 BI 过渡到 AI,为模型服务。让人来使用和消费数据,变成让模型来消费数据。

最后我们来看两个客户案例,第一个案例是一个国内领先车企,客户希望通过端到端大模型优化和升级辅助驾驶能力。

客户痛点:

1.异构计算导致的数据处理效率低:无法在一个工作流里同时调用 CPU 和 GPU 资源,完成一次处理 PB 级别数据需要数天以上,影响模型迭代效率。

2.数据自动标注时,GPU 无法并发,资源利用率低:单卡 GPU 一次只能支持一个标注模型,剩余未打满的资源将会出现闲置情况。

3.数据管理成本较高:使用 LMDB 数据存储格式,每次增加某列推理标注时,需要读取和重建全量数据集。

解决方案:

在推理过程中,EMR Ray on GPU 支持单卡并发模式,单卡 GPU 可以同时支持多个并发标注推理模型,充分利用计算资源,避免大量资源闲置浪费。

由于 LAS 数据集目前已经支持 Lance 格式,Lance 可以和数据压缩算法结合,可以大幅优化存储空间,同时 Lance 提供了灵活的增减列能力,大幅优化数据存储效率。

方案落地后,端到端的数据训练提速 1.5 倍,资源使用效率提升到 95%,存储成本降低至之前 1/4。

第二个案例是一个 AI 内容营销创新企业使用多模态数据湖的案例,客户通过数据挖掘、数据分析等方式,为各行业提供个性化的内容营销解决方案。

用户主要痛点是开发效率和作业运行效率问题,之前的技术栈多,数据链路复杂,拖慢了业务的敏捷性。

通过 LAS 数据处理算子提供的可视化工作流编排,客户大幅提升了 Pipeline 开发效率。

通过 LAS 提供的三方集成能力,用户可以快速将自定义镜像部署在云上环境里。同时,LAS 和 ByteHouse 提供的全托管资源管理方案,可以实现资源的灵活调度、弹性伸缩。

方案落地后,开发效率提升 50%,数据处理效率提升 5 倍,技术栈也大大简化。


今天我们一起回顾了数据基础设施演进的新趋势、面临的新挑战,以及 AI 云原生下的新一代数据基础设施——多模态数据湖;分享了我们落地的 2 个客户案例,我们也希望通过新方案、新产品助力更多客户迈进 AI 新时代,谢谢。


用户头像

还未添加个人签名 2022-01-25 加入

还未添加个人简介

评论

发布
暂无评论
多模态数据湖焕新升级,企业新一代AI Native的数据基建_人工智能_火山引擎开发者社区_InfoQ写作社区