打造数据处理新范式,DataPilot 畅游数据向量海
一直以来,AI 和 Data 有着密切的关联。在过去的十几年,数据通常被认为是 AI 的原料、基础要素,我们称之为 Data for AI 的架构时代。大模型的出现,让数据得到了 AI 的反向赋能,这是全新 New Data 时代的标志。
当数据与 AI 能力大突破发生碰撞,它的未来又将如何变化?在九章云极 DataCanvas 新产品发布会上,九章云极 DataCanvas 公司副总裁周晓凌深度解读了公司自研的新一代数据架构工具产品 DataPilot 向世界给出的答案。
九章云极 DataCanvas 公司副总裁 周晓凌
演讲实录
大家下午好!下面由我来跟大家介绍一款隆重发布的新产品 DataPilot,DataPilot 是九章云极基于元识大模型开发的一款 AI 增强新的数据架构,DataPilot 同时也是新的数据处理范式,有三个特性:1、多模向量海数据架构;2、按需自动化数据集成、代码生成、流程编排和计算分析;3、基于自然语言的数据获取、分析和机器学习。
DataPilot 是怎么实现这些特性的?先来看一下数据架构的演进历史变化。过去 15 年来我们的数据架构从数据仓库开始发展,2008 年大家开始建数仓,到 2016 年开始到最近大家都还在建设 Data Lake,这两个平台相对比较稳定,从去年开始,大家在提关于新的数据栈的概念,尤其是像 Data Match、Data Fever 的概念,去年海外有一些交流,国内从今年开始大家考虑是不是从旧的架构迁到新的架构。这样的方案一直没有得到很好的落地。生成式人工智能和大语言模型的出现,对自然语言的理解和对代码生成的优异表现,让 New Data Stack 时代出现新的曙光。
从数据规模来看,数据规模并不是一个量级的数值,它是从微观到宏观的概念,比如早期我们为了一个特定的分析目标,我们引入一些治理非常好的主题的数据来做分析,随着企业需要分析更多的数据或者探索更多的未知情况,我们引入一些企业各式各样的数据。到大模型时代,我们现在开始考虑引入世界知识,甚至行业知识,不光是企业内部的知识。随着数据规模发展的同时,我们看到数据模态本身也在往前发展,从早期的数据大多是表结构的方式,从一张张数据结构化的表存放这些数据,到了 Data Lake 时代有更多的模态数据,包括图像、视频、语音甚至时间序列的数据,这些数据都存放在文件系统里面,或者通过文件系统,用表的形式把这些数据表现出来。到了新的数据时代,我们希望这些多模态的数据能够通过更有效的方式表达出来,计算出来,这时业界推出向量化的概念,用向量的方式把各种各样模态的数据放在数学空间里进行统一编码、统一计算、统一对齐,这是演进的过程和数据模态的变化。
第三个变化,数据分析的复杂度变化。从早期做报表,主要用 SQL、OLAP 的方法来做,后来加入统计的方法,机器学习、深度学习的方法,新的时代希望系统能给我们推荐,建议怎么分析,给我们提供自助分析的建议,或者帮我们生成数据,或者建模过程中是不是通过聊天或者对话的方式来实现,数据分析的复杂度在提升。数据业务人员,不是技术工程师,他希望看一下过去一个月业务的变迁情况,给他一些建议,可以看更多的数据,可以这样问。业务人员看这些数据之后可以用聊天的方式去构建一个机器学习模型,用机器学习模型去预测未来业务的变化,甚至用聊天的方式,自然语言的方式分析过去一个月业务起伏的原因,这是新时代给大家展示的新变化。
数据架构的演进,本质上由业务驱动,业务驱动让我们数据的技术栈发生变化,在数据仓库时代我们的业务主要是报表,主要做 BI,报表是什么?看昨天的数据,我们需要这些数据干什么?用来做运营决策,做运营分析,或者做监管报送,这时候我们对数据的准确性和完备性要求非常高,会引入分成建模的机制或者强治理的机制,对数据的时效性要求没有那么高,在数据计算、调度以及数据接入都是批量接入的,计算更多通过 SQL 或者 OLAP 的方式做关系代数的运算。到了 Data Lake 时代,数据运用的需求提升,原来批量离线的报表,看昨天的报表不满足了,想看实时报表。原来做好的数据报表不够用了,我要看没有做好的报表,要做交互式分析。光看历史不够了,我想看未来,预测未知的情况,这时候我们的计算得到了提升,我们需要更多引入原来没有准备好的数据,我们会有一些弱治理数据的引入,这时候计算从 SQL 转向统计分析,转向数值计算的方法,因为我们要看的东西更多了,数据模态从原来单纯的结构化数据模态转向更多其它的模态,在数据湖是独立存放的,以文件或者对象的方式存储在文件系统里面。
到了 New Data Stack 时代,需求分析又提升了,需要我们能够提供系统,提供建议性分析,基于自然语言的查询,用自动式对话机器学习的方式,引入向量搜索的计算方法,我们的需求是即时提出的,系统事先可能没有准备好,根据对我需求的理解,即时做数据的调度、加工,生成数据代码。我们希望把不同模态的数据通过同一种编码方式存储下来,这也是向量化出现的契机。
数据架构的自动化水平,这里面有一个很有趣的事情,这么多年搞数据化或者搞 AI 化,我们的主要目的是给各行各业提供自动化的能力,提高自动化的水平。实际反过来看一下,数据本身的自动化水平比较低,在数仓和数据湖时代,在数据摄取环节,其实大部分的数据都是手工去接入的,手工接入 Linux 系统或者数据平台集成进来,只有少量的数据卸载或者复制的时候实现自动化。
第二个很重要的事情,关于数据结构分析和理解的自动化,我们需要完全靠人工的方式去理解业务,理解上游系统的数据结构,理解完之后再把它转化为对下游系统的编码或思考编写的行为。
第三,数据建模维护,对上游系统有了理解,这时候再开始做中游数据的建模过程。这个过程里面基本上现在也是纯手工的方式,只有在一些上游数据格式变更的时候通知到下游,下游做一些迭代。
第四,元数据管理和数据治理方面,自动化程度最高,我们做了一些可视化的工具、画布拖拉拽数据,或者报表制作的时候拖拉拽数据,把数据抽取出来,有大量的机器学习 Python 代码,没有人去理解这些代码,元数据的治理全是手工来做的。
第五,数据使用和服务。数据加工完了,最后一步提供给应用者使用的时候,通过手工编码去开发一个 API,开发一个服务,写一段脚本,写一段 SQL,实现数据服务和应用。这个自动化水平也很低。
第六,数据性能优化和架构优化,大量由人工完成。我们希望 DataPilot 或者大模型驱动的新时代应该是怎么样的?在新的数据时代,在自动化领域,数据治理得到极大的提升,在元数据管理和数据服务和治理的层面,自动化水平达到百分之百,这个体现在当客户有一个需求提出来的时候,能够理解这个需求并转化为对现有数据的加工和整理,把这个应用输入给它。对数据结构的分析与理解,数据建模的维护自动化达到 75%,希望能够通过大模型的方法去理解业务知识,理解上游系统的数据结构和数据本身,能够自动化生成数据建模的编码。数据摄取、数据性能优化,这两个部分涉及到跟外围系统的集成,它的自动化可能达不到百分之百或者提得很高,我们定了 50%的目标。我们开发 DataPilot 产品的目的是什么?极大地提升数据应用本身的自动化水平,利用九章元识大模型对自然语言的理解,也就是对客户需求的理解,对数据结构的理解,以及数据代码、数据编排流程自动化生成,来实现自动化的过程。
这个过程是怎么样的?我们把一个 New Data Stack 投屏在这上面,最右边是数据应用,如果数据之前没有准备好的话,需要经过非常复杂的流程才能到达数据应用的环节。有时候在客户那边碰到一个问题,客户说我要一个数据,数据工程师或者 IT 部门负责任地说我需要几天几个礼拜或者几个月才能给你这个数据,为什么?因为需要数据工程师从头开始理解慢慢走完这个数据摄取、转化、存储、计算、分析、预测到应用的过程。
我们看一下 DataPilot 在九章元识大模型的加持之下,覆盖了数据从摄取到应用的全流程。数据摄取由 DDS 产品覆盖,数据转化工作由编排的数据管道 GPT 和融合计算平台 RT 来实现,在存储计算方向由统一的 DingoDB 多模态数据库来覆盖计算分析的过程。我们也开发了两个数据应用,一个是 TableGPT,另外一个 DataQueryGPT,简单介绍一下这两款产品。DataPilot 是新的数据处理范式,基础架构是 Vector Ocean 向量海,在 Vector Ocean 向量海的基础之上我们提供了几款产品,一个是 DDS 产品,是数据库实时同步传输工具,支持各类数据源的自适应采集,也就是前面我们谈到的摄取环节。RT 融合处理平台,支持数据集成、开发、计算、治理平台,也是从原来编码式的方式转向数据生成式的方式。DingoDB 是 Vector Ocean 的底层支撑平台,提供结构化、非结构化数据的统一存储和联合分析能力,大家知道我们有 AutoML 产品,TableGPT 更进一步,对话式实现自动机器学习建模和训练。
DataWaveGPT,是自动化数据 ETL 代码生成、数据任务编排工具。DataQueryGPT,对话式的结构化与非结构化数据查询与分析工具。我们基于 Vector Ocean 向量海的结构是怎样的?下面由九章云极 DataCanvas 公司高级产品总监胡宗星为大家介绍!
下篇预告:胡宗星《AI 与数据双向赋能,DingoDB 成向量海时代超强引擎》,敬请期待!
评论