PPT 下载 | DataOps + 大模型促进数据工程创新
聚焦大模型时代,Data 和 AI 的变与不变。2023 年 11 月 24-25 日,数造科技与 70+互联网大厂、知名科技企业、领先 AI 研究机构等专家、1000+专业观众一起分享关于 Data+AI 独具创新的观点与最佳实践,一起探索大模型时代的变与不变。现场,数造科技高级技术专家杨明皓进行关于《DataOps 加大模型促进数据工程创新》的精彩演讲,和业界一起探讨 DataOps +大模型激活数据价值的无限潜力!
(关注公众号,在后台回复“DataOps +大模型”即可免费获取完整版演讲 PPT)
在数字化时代,数据管理和分析至关重要,而传统数据管理和分析存在诸多的挑战,在此背景下通过分析 DataOps +大模型的特点,数造科技提出 DataOps 的基础上结合大模型能力,实现数据工程的敏捷和智能化,促进数据工程的快速交付和数据民主。在本次大会上,杨明皓老师分别从传统数据管理面临的挑战、DataOps 与大模型的结合驱动数据工程创新、数造科技 DataOps 与大模型的产品落地实践及未来展望四个方面进行展开,将带领大家一起探索如何把 DataOps 和大模型进行融合,给数据管理和分析带来新的驱动力。
传统数据管理面临的挑战
随着数字化时代的到来,企业数字化转型呈现出数据分析民主化、数据技术多元化和业务价值精益化三大战略发展趋势。企业数字转型过程中面临的数据供需双向痛点,业务团队面临着数据消费需求暴涨,大量突发、零散、随机、一次性需求亟待解决,数据供不应求,而数据开发的高门槛,业务取数难导致数据价值难以直观传导。业务团队和数据团队之间有着“数据分析门槛高、数据交付效率低、跨域协同难推进、自助用数难满足”等难以跨越的鸿沟,最终导致研发进度始终落后于市场需求。
DataOps 与大模型结合驱动数据工程创新
数据工程管理模式的创新变革需要引入新的方法论,以推动工具、流程和人员等资源的优化重组,构建现代化的数据研发范式。DataOps 作为一种敏捷数据开发的新范式,通过实现敏捷的数据研发流水线、高效的跨域协同机制、自助的数据使用体验和精细化的运营体系,旨在加速数据交付效率,提升数据价值转化能力。
近年来,DataOps 在研究机构和产业界得到广泛关注和应用,并逐渐成为企业数字化转型的重要组成部分。自从 2018 年被 Gartner 纳入数据管理技术成熟度曲线以来,DataOps 的热度逐年上升。为了推动 DataOps 的发展和实践,2022 年国内信通院组织了行业专家成立的工作小组,并前后发布了相关能力框架模型、实践指南,并且将于近期推出系统工具标准,指导企业更好落地 DataOps,数造科技也积极参与到相关的标准制定工作中。
与此同时,AI 技术和应用经历了从 2011 年前的决策式/分析式 AI 时代到 2012 年至今的生成式 AI 的急速发展。AI 模型在语音识别、图像识别、自然语言理解等领域的表现超越了人类平均水平。这一发展推动了 OpenAI、微软、Amazon、谷歌等公司在大模型领域的布局,并广泛应用生成式 AI 于知识管理和代码生成场景,提高了代码的准确性和开发效率。
在这样的背景下,将 DataOps 与大模型结合起来,可以进一步激活数据价值转化的效率。DataOps 强调数据流程的自动化和协作,而大模型的构建通常需要大规模的数据。两者有机结合可以利用 DataOps 的流程自动化来优化数据准备、模型训练和评估的流程,提高效率。同时,大模型的生成能力也为 DataOps 带来创新的场景和体验,例如大模型能够支持代码生成、解释和审查工作,降低了数据开发和数据分析的门槛,并提升了数据工程交付的效率。
传统的数据开发模式
DataOps+大模型模式
在数据工程领域,相比传统的数据开发模式,DataOps 与大模型的结合带来了数据工程的新变化,例如标准化和自动化的数据开发工序、项目成员的关键节点介入、自动化工具替代人工处理、环境管理和参数配置的自动替换,以及可以按天快速迭代的交付周期等。因此,DataOps 和大模型的结合有望加速数据研发和数据分析的效能,带来新的用户体验提升,进一步推动数据的民主化,并为企业带来更多的商业价值和竞争优势。
数造科技 DataOps 与大模型的产品落地实践
对于 DataOps 与大模型的产品落地实践,首先杨明皓老师解释了 Text2SQL 任务的定义,并介绍了目前大模型技术帮助 text2SQL 任务在 Spider 评测榜单上取得较大的突破。现场总结了在大模型出现之前,text2SQL 任务在 schema-linking、logic-linking、SQL parsing 等过程中的各种优化策略;同时也总结了基于大模型技术的 text2SQL 任务策略,例如 CoT、In-context Learning 等,并结合案例解释了 Text2SQL 在结合大模型前后的区别。最后杨老师阐释了预训练模型和大模型在 Text2SQL 任务上实际落地所面临的挑战。
大模型之前的 Text2SQL
在大模型之前 Text2SQL 任务大多基于预训练模型,采用编码器-解码器(encoder-decoder)框架,这类方法依赖大量的训练数据。详细来说,以预训练模型为底座,encoder 编码器将自然语言查询编码为向量表示,decoder 解码器通过学习从该向量到 SQL 查询的映射来生成 SQL 查询语句。SQL 生成器对生成的 SQL 进行语法和语义验证,并执行相应的数据库查询。
在此基础上,采用了 Relation-Aware Transformer、Intermediate Rrepresentation、AST-based generation 等优化策略,去缓解自然语言和 SQL 语句之间语义不匹配的问题,同时也增强了 decoder 端生成语法准确的 SQL 能力。但在日常应用中,预训练模型中还存在参数规模有限、文本生成能力弱、对训练语料要求较高、难以对大规模的 schema 进行解析等缺点。
基于大模型的 Text2SQL
在基于大模型的 Text2SQL 中,以 LLM 作为大模型底座,通过思维链和任务拆解的提示工程及基于指令的监督微调的方法进行模型训练,从而提高模型的准确性和泛化能力。基于大模型的 Text2SQL 方法在处理自然语言查询的复杂语义和上下文时表现出色,可以处理更复杂的查询,包括多个约束、连接和聚合操作。
但基于大模型的 Text2SQL 任务也同样面临着诸多挑战,例如存在 Prompt Engineering 效率的挑战和模版的限制、除 GPT4 外的其它私有化部署大模型缺乏研究、Text2SQL 的 SFT 缺乏研究、GPT-API 调用限制和耗时、存在安全和合规风险、 大模型的本地化和微调资源消耗大、大模型的黑盒性难以进行优化和改造、大模型的指令鲁棒性和指令遵从性有待提高。
尽管基于预训练模型或大模型的 Text2SQL,在 SQL 生成上的精确匹配率和执行准确率已经分别取得了较大的突破,但两者依然面临着共同的难题——用户在实际的使用过程中也许并不知道数据在哪一个数据库中,也就面临着如何高效从海量的元数据库中定位到需要的库、表和字段等问题,这可能需要模型从几百张或者上千张表中高效完成 Schema-linking。这也是 Text2SQL 任务的另一个价值点的体现,如何智能找数。
01、完备的数据治理,促进 Text2SQL 准确率提升
为了解决这一难题,数造科技在数据工程过程中从开发到设计的完备数据治理流程,通过数据标准、数据建模、元数据管理建立元数据语义图谱,促进 Text2SQL 准确率提升。在输入数据加工需求后,支持给大模型提供相应的表的元数据信息,可以通过数据资产目录来选择涉及的数据表元数据,把需求和元数据提供给大模型后,输出的 SQL 语句中的表和字段已经是按照本地元数据生成的。
02、DataBuilder 在 Text2SQL 的实践探索
基于以上元数据语义图谱、知识库的搭建,数造科技通过产品 DataBuilder 进行了大量 Text2SQL 任务的对比实践,最终得出了基于预训练模型的 Schema-linking +提示工程+大语言模型的 text2sql 任务框架。
首先,我们基于 RoBERTa 预训练模型以及 Column-Enhanced Layer 完成 Schema-linking 任务,查询到相应的表名和列名,建立语义关联,避免了在数据的海洋中进行“大海捞针”。然后,通过提示工程引导大模型理解和生成与结构化模式相关的查询语句,目前数造科技已经实现了结构设计、思维链和角色扮演等 10 余项 Prompt 的成功实践。
随后利用训练有素的大模型根据提供的提示和上下文,将自然语言查询转化为符合 SQL 语法和语义的查询语句。最终生成的 SQL 查询可以直接用于与结构化数据库进行交互,实现高效的数据检索和操作。这一流程结合了语义理解、自然语言生成和数据库查询的能力,使得自然语言与结构化数据之间的转换更加灵活和便捷。
03、DataBuilder 整体架构,实现 DataOps 与大模型融合
DataBuilder 结合了 DataOps 和大模型能力,支持敏捷数据工程发布和自动代码生成,为数据开发和数据分析人员提供一站式的数据研发和数据探索能力,通过自然语言对话和本地元数据,用户即可获得所需的 SQL 脚本,将有助于降低数据开发和数据分析门槛,通过 DataOps 的敏捷数据管道,提升数据工程交付效率,提升企业用数效能,加速数据价值转化。
04、开发治理一体化的数据管道
数据开发模块提供敏捷、协作的开发治理一体化数据管道,将组成 DataOps 的步骤和过程自动化:创建项目、环境预设、数据集成、模型设计、数据加工、工作流编排、任务测试、部署上线、运维调度等。并将数据治理工作融入开发过程中,实现从设计态到运行态的管理和约束,相互联动配合,实现在数据在业务过程中进行主动治理。
05、DataOps 的持续集成与持续发布能力
DataOps 的持续集成和持续交付(CI/CD)是通过自动化工具和流程来实现的,目的是提高数据开发和部署的效率、质量和可靠性。具体来说,持续集成指将代码或配置的修改周期缩短为尽可能短的时间,并持续将这些修改整合到主干分支中,以便及早发现和解决问题。持续交付则是在持续集成的基础上,自动化地将代码部署到测试和生产环境,以实现快速、可靠的发布。DataOps 相对于 DevOps,还需要测试 SQL 和数据,因此 CI/CD 能力还需要具备多环境的创建和参数自动切换,让一份代码可以在多套环境运行。
此外,数造科技 DataBuilder 还提供数据地图核心能力,改善数据可发现性和理解能力。利用目录导航模式、全文检索模式,数据资产详细元数据,对数据血缘进行分析。可视化建模和数据研发能力,实现可视化的数据模型设计和标准落标、逻辑模式全局视图,支持在线代码协作开发,支持多项任务 l 任务和工作流编排。另外,Text2SQL 支持问题输入、选择元数据、生成 SQL,将代码复制到工作区域进行运行测试,查看结果。
DataOps 与大模型的未来展望
1、基于数据血缘图谱嵌入更多的语义
打造由逻辑层、主题层和指标层组成的元数据图谱,其中主题层和逻辑层体现了数据加工逻辑,而指标层体现了业务语义。数据血缘图谱打通了数据加工逻辑和业务语义的关系。具备业务语义层的元数据图,还可以帮助大模型更加精准地挖掘自然语言与本地元数据之间的关联关系。2、基于知识图谱推理的 schema-linking
基于源数据血缘图谱,引入更加复杂、链路更加深的关系模式,未来可以考虑结合子图检索增强的方法去实现 schema-linking。3、Long-context LLM 未来端到端的最佳实践
Text2SQL 评测数据中,因为模型输入 token 数量的限制,所以每个数据库只包含少量表和列。然而,真实情况下数据库通常包含数百个表和上千个列,这给 Schema-linking 带来挑战,期待未来工程方法和 Long-context LLM 可以应对海量元数据信息。
评论