火山引擎发布数据飞轮 2.0,AI 重塑企业数据消费
12 月 18 日,在 2024 冬季火山引擎 FORCE 原动力大会上,火山引擎数智平台(VeDI)正式升级发布数据飞轮 2.0 模式。
延续去年 4 月发布的数据飞轮“以数据消费促资产建设,以数据消费助业务发展”的核心内涵,此次升级后,数据飞轮 2.0 将 AI 视作数智化的核心竞争力,借助 AI 技术推动企业更普惠的数据消费。
火山引擎数据飞轮 2.0 模式图
本次模式升级包括了:智能数据洞察 DataWind ChatBI 智能体、增长分析 DataFinder 智能分析助手、A/B 测试 DataTester 智能实验助手、客户数据平台 VeCDP 智能营销助手、增长营销平台 GMP 创意助手、大数据研发治理套件 DataLeap 运维助手和 E-MapReduce 全模态数据处理引擎等,全系列火山引擎数智平台产品 AI 能力的发布。
与此同时,两大数据飞轮 2.0 核心解决方案首次公开亮相。
其一为 “DataFabric 驱动下的 ChatBI 智能体解决方案”,亮点在于赋予业务自定义的数据智能体能力,有效降低业务调用与理解数据的难度;
其二是 “多模态数据湖解决方案”,该方案专注于处理全模态数据,扩容企业潜在数字资产规模。
至此,数据飞轮 2.0 实现数据生产、管理与应用各环节全方位 AI 能力深度融合,推动企业数据消费便捷化、资产建设低门槛化,加速企业数据价值实现进程。
数据消费的新体验:ChatBI 智能体
在 2.0 升级前,火山引擎数据飞轮已在近两年的时间里,帮助众多企业通过数据消费挖掘数据价值,助力业务增长:
领克汽车通过数据飞轮构建用户数据平台,精准洞察消费者需求,实现差异化营销,运营成本降低 70%;德邦快递通过数据飞轮解决数据"黑盒"问题,用户识别和营销效率显著提升,月营销活动峰值可达 100 场,效率提高 5 倍;玛丽黛佳两年内完成数智化转型,搭建的“数据找人”模式,让数据自动生成并流向业务负责人,实现实时决策……
数据飞轮模式并非静态技术框架,而是有生命力的生态系统,其生命力源于数据消费。而,企业数据消费的广度与深度,则直接决定企业数智化的程度。
上述企业在数据飞轮模式助力下,内部数据消费水平显著提升。
然而,在与更广泛的客户合作中,火山引擎数智平台察觉到一个关键难点:企业内部各岗位角色间的的数字化水平存在较大差异,数据分析与应用产品的使用往往局限在少部分专业角色中,这在一定程度上制约了企业级数据消费活力的释放。
这也引发了火山引擎数智平台的思考:如何确保企业各业务角色以及每一层级组织,都能便捷、高效地获取和使用数据?
在 AI 涌现的趋势下,他们摸索着找到了新解法——构建业务自己的数据智能体,在经由内部多个产品实践后,最终发布了“Data Fabric 驱动下的 ChatBI 智能体”解决方案。
火山引擎 Data Fabric 驱动下的 ChatBI 智能体解决方案
事实上,在去年,围绕大模型能力,火山引擎数智平台已经推出了智能数据洞察 DataWind 分析助手等功能。企业员工可以通过自然语言输入,查收到对应的可视化图表并实现下钻分析,实现数据分析效率的提升。
但在企业具体的实践中,重新学习输入 prompt(提示),并不能为专业的分析师“减负”;而对 BI 工具不精通的员工,在使用这类能力时,又会遇到如何选择数据集等“专业”难题。
同时,笼统的分析助手无法理解不同行业与业务中的“黑话”,不理解使用者的真实意图,从而大幅降低分析准确性。
“Data Fabric 驱动下的 ChatBI 智能体”解决方案,正在试图解决上述这些问题:通过构建完整的智能数据服务体系,打破数据“专业”壁垒,帮助企业内每个业务都能定制专属智能体,持续降低数据使用门槛,提升大模型能力下的数据反馈效率和准确率。
在这套解决方案中, Data Fabric 通过语义层和数据模型的整合,重构了数据生产关系,在显著降低数据存储和计算成本的基础上,让数据服务变得更加敏捷;而 ChatBI 智能体则能更贴合业务个性化需求,通过交互理解、数据访问、分析推理和结果生成四大模块,极大提升业务员工的数据生产力,让数据消费变得更加简单直接。
数据显示,在字节跳动内部,这套方案已覆盖超 200 个分析场景,每天处理 10 万余次分析请求,平均分析时间降低了 80%,数据开发和运维成本也大幅下降。
数据资产的新生力:多模态数据湖
如果说“Data Fabric 驱动下的 ChatBI 智能体”解决方案,是火山引擎数智平台持续在服务企业过程中,不断洞察新的业务需求,实现的“数据+AI”能力沉淀和升级。那么“多模态数据湖”解决方案的诞生,则更像他们洞见当下企业即将遇到的问题时,所作出的敏捷反应。
LLM 的大热,让企业对于 AI 赋能的数字化满怀憧憬,众多企业投身大模型于业务场景的落地实践。然而技术魅力与现实困境共生,大模型催生的图像、视频、音频等海量多模态数据正在挑战传统湖仓技术。
传统的结构化数据处理,无法满足当下对多模态数据的存储、计算,也无法挖掘出这部分数据背后的资产价值。
在深度参与大模型产业的同时,火山引擎数智平台亦敏锐感知到了非结构数据变现成企业核心数据资产的意义。
多模态数据湖解决方案,应运而生。
火山引擎多模态数据湖解决方案
火山引擎数据飞轮 2.0 所推出的多模态数据湖解决方案,可实现海量结构化、半结构化及非结构化数据的统一精细化管理,全方位兼容各类数据格式,为 LLM 预训练、持续训练和微调全程各个环节提供更好的数据支持。
从数据源来看,火山引擎多模态数据湖方案可实现各类数据的统一管理;在算子处理方面,该方案提供了 100 多种开箱即用的非结构数据处理算子;在多元异构计算上,方案提供了 CPU+GPU 异构计算,能让数据计算提效 3 倍以上。
目前,该解决方案已广泛应用在泛互联网、汽车等行业,并取得实效。
以聚焦于智能网联汽车的某科创公司为例,最初该公司使用自建开源大数据平台支撑车联网数据采集、加工及分析,但存在实时离线数据割裂、数据膨胀、系统稳定性低等问题。
通过引入火山引擎多模态数据湖解决方案,该公司将火山引擎 E-MapReduce 作为数据湖 OLAP 引擎,构建兼具离线、实时的湖仓一体架构,并运用其存算分离架构应对高膨胀增量数据,在确保计算性能 SLA 稳定的同时,成功将维护成本降为零;
还进一步借助全域数据集成 DataSail 实现 OLAP、OLTP 两种不同负载要求的任务分离,保障了服务的可用性。最终在数据处理实效性提升为秒级的基础上,资源成本还降低了 30%。
技术之外,能力的培养至关重要
数据飞轮 2.0 模式的诞生,不仅仅是火山引擎在当下技术变革的顶层设计进化。它更是来自字节跳动内部的数据驱动、AI 实践经验的再次总结。
事实上,目前火山引擎数据飞轮 2.0 模式提供给企业客户的能力,均已在字节跳动内部进行了长期的沉淀与优化。
比如,多个业务线搭建了专属 ChatBI 智能体,数据显示,基于 ChatBI 智能体,业务用户可自闭环完成“从业务问题到数据问题”的诊断和分析,数据自助分析率达 90%。
再比如,另一款数智产品增长营销平台 GMP 所提供的创意助手能力,生成营销内容 80%可以无需人工干预直接投放。
经由内部的充分实践,火山引擎数据飞轮 2.0 模式已经积累丰富的场景经验。这些技术之外的经验能力,亦是飞轮 2.0 模式能运行良好的重要保障。
因此,除了能力与方案的发布外,火山引擎在本次大会上也发布了“数据飞轮 2.0 加速计划”,不仅为想要尝试新能力的企业提供为期 3 个月的免费试用,更为需要深度挖掘数据飞轮 2.0 场景的企业,提供了最多 3 个月周期的免费项目制陪跑服务。
在为企业提供工具能力的同时,更要向企业传递方法与经验。
据了解,该陪跑服务涵盖了企业大模型数据应用方案规划、企业 Data+AI 能力培育、业务陪跑等多个方面,目的是帮助企业用更短时间,更快构建并高效运行数据飞轮 2.0,实现业务价值提升。
版权声明: 本文为 InfoQ 作者【字节跳动数据平台】的原创文章。
原文链接:【http://xie.infoq.cn/article/e37960f589a300aedb4a87e28】。文章转载请联系作者。
评论