数据中台改名 DaaS 平台?究竟什么是数据即服务(DaaS)?
DaaS 的概念一直以来在国内都比较冷门,前段时间阿里巴巴整合了数据中台、业务中台、服务系统等多个核心部门,推出数据智能服务新公司瓴羊,才给这个冷门词汇带来了热度。
瓴羊发布会“not only SaaS”
但其实阿里定义的 DaaS(Data intelligence as a Service)不是我们传统意义上的“数据即服务”,而是围绕企业经营生产提供的一整套智能软件服务,正如阿里巴巴集团副总裁、瓴羊 CEO 朋新宇所说的:“瓴羊就是将过去阿里内部沉淀的数字化技术与产品的一次“打包”,包括数据中台、业务中台、客服系统、营销服务、供应链服务等。”
所以也有一些专家指出:为了博取眼球,对一些数据概念乱定义或随意扩大内涵容易混淆大众,不利于数据知识的普及,关于 DaaS 的内涵,国内外业界是有一些共识的,今天我们就详细讲讲。
数据即服务(DaaS)侧重于以数据 API 的方式按需提供各种来源的数据,一般 DaaS 平台还包括元数据管理,数据治理,数据开发等功能,其根本作用是帮助企业将数据资产便捷地转化成业务能力(应对企业应用之间、系统之间数据即时交换、共享、使用的需求),最终解决企业最核心的增长问题。
一.DaaS 出现的背景:
拥有足够的数据不再是当今公司的主要问题,对于数据的管理和数据的便捷消费成为了企业面临的难题。
以车企为例:像大众、戴姆勒、丰田这样的全球大型车企公司很早就开始了全面数字化建设,想将数据转化为公司重要的战略资产,如今基本都构建了一套相对比较完善且复杂的数字化系统架构。
本地有本地部署和私有云、公有云等混合云架构的数据库;数据库类型包含供应商的 Oracle 数据库、微软的 MSSQL 和 IBM、MySQL 的数据平台,及 Hadoop 集群等;业务系统包含经销商管理系统、客户管理系统、财务系统等等。
但随着数据应用需求越来越多,像:企业内部数据分析、BI、业务使用以及企业外部的发票查询、服务订单查询等等。
而数据分散在不同业务系统和数据库,数据的获取主要依靠开发团队针对各个业务需求和所需取数的平台单独开发数据接口,就会出现以下问题:
开发的效率和数据传输稳定性都取决于开发团队的能力。
每次出现新的需求或前后台出现变化,都需要技术团队重新开发,导致 IT 员工需要花费大量时间和经理去做繁琐而重复的工作,员工做的疲累、公司也付出了许多无效成本。
此外:各自开发接口也会导致管理混乱,没有全局的权限管控,数据安全隐患众多。
而且就算所有的应用需求都能快速开发,计算性能还不一定稳定,遇到高并发的请求系统很可能崩溃。
业界对让数据应用更高效简单产品的需求迫切而必要。
二.DaaS 要解决的问题:
第一,接口规范化定义。对各个数据应用屏蔽了不同的中间存储,提供的是统一的 API。
第二,数据网关部署。作为网关服务,数据服务必须要具备认证、授权、限流、监控四大功能,这是数据和接口复用的前提。
认证。为了解决接口安全的问题,数据服务首先会为每个注册的应用分配一对 accesskey 和 secretkey,应用每次调用 API 接口,都必须携带。
授权。对于每个已发布的 API,API 负责人可以对应用进行授权,只有权限的应用才可以调用该接口。
限流。API 接口的负责人可以对应用进行限流(例如限制每秒 QPS 不超过 200),如果超过设定的阈值,就会触发熔断,限制接口的访问频率。需要注意的是,对于接口复用来说,限流功能非常必要,否则会造成不同应用之间的相互影响。
监控。例如,接口的 90% 的请求响应时间、接口调用次数、失败次数等相关的监控。同时,对于长时间没有调用的 API ,应该予以下线。
第三,数据全链路打通。服务很难避免出现问题或者故障,一旦出现问题,及早发现及早介入是非常重要的,因此,数据服务必须负责维护数据模型到数据应用的链路关系,构建服务平台的全链路监控,包括:
数据同步:对数据资产同步至高速存储的过程进行监控,包括数据质量检测(过滤脏数据)、同步超时或者失败检测等;
服务稳定性:构建一个独立的哨兵服务,来监测每个 API 的运行指标(如延迟、可用性等),客观的评估健康度;
业务正确性:数据服务需要确保用户访问的数据内容和数据资产表内容是一致的,因此,哨兵服务会从数据一致性层面去探查,确保每个 API 的数据一致性。
第四,基于逻辑模型发布 API,实现数据的复用。逻辑模型是解决数据复用的一个策略,在相同的物理模型之上,应用可以根据自己的需求,构建出不同的逻辑模型。我们可以在数据服务中定义逻辑模型,然后基于逻辑模型发布 API。
逻辑模型实际是多个物理表,从用户的视角,一个接口可以访问多张不同的物理表。逻辑模型类似数据库中的视图,相比于物理模型,逻辑模型只定义了表和字段的映射关系,数据是在查询时动态计算的,因此,不占用大量的物理存储空间。
第五,构建 API 超市,实现接口复用。为了实现接口的复用,我们需要构建 API 超市,应用开发者可以直接在 API 集市发现已有的数据接口,直接申请该接口的 API 权限,即可访问该数据,不需要重复开发。
数据服务通过元数据中心,可以获得接口访问的表关联了哪些指标。使用者可以基于指标的组合,筛选接口,这样就可以根据想要的数据,查找可以提供这些数据的接口,形成闭环。
此外,需要关注的是,在当前最新的应用中,API 已超越了技术范畴,从对技术的要求转变为商业战略和商业模式的需求,许多企业开始启动 API 战略,构建 API 生命周期管理。
三.DaaS 平台的功能优势:
DaaS 平台的主要功能如下:
(1)数据服务开发:
API 开发:开发人员通过配置或代码的方式快速生成数据服务 API;配置模式主要由选择框选取所需数据库表以及输入输出参数字段,代码模式主要由 SQL 编写更复杂的数据访问需求。已经创建好的 API 能够升级迭代、下线删除。使得开发人员工作效率大大增加,能够立即响应企业地数据应用需求。
SQL 工具:开发人员用 SQL 编写更复杂的数据访问需求。
开发、业务人员都能开发使用数据 API,让数据应用不再困难
(2)数据服务共享:
数据超市:开发人员已经开发的 API 可以放在数据超市,供业务人员申请使用。以消费者角度出发,更人性化的让业务人员对于 API 接口随时消费,随时调用。数据 API 生成的数据可以轻松下载,或者以加密链接的方式分享。高级搜索:系统提供类 Google 方式的检索,对企业数据进行模糊查找,快速定位用户所需数据。即方便用户通过自己对业务的理解来查看相关数据。
数据市场
(3)数据服务管理:
数据目录:跨异构平台集成数据、企业数字资产一目了然。(按照公司业务、部门或者其他标签方式将企业数据以目录形式展现出来)
数据质量:自定义质量评估标准,自动诊断企业数据质量。
行为分析:企业内部的 API 调用行为也会被记录,开发人员和高层能分析数据使用情况来进一步优化运营。
(4)系统管理监控:
安全便捷:传统数据使用时需要在原系统数据库给相关用户创建账号或赋予权限,操作复杂且有隐患。麦聪有完整的审批流程和细化到表级别的全局权限管控,可以屏蔽底层数据库变更影响,更加方便安全。
数据使用安全合规,让企业数据风险降低
DaaS 平台的优势:
(1)支持数据源多——连接孤岛集成全域数据:
麦聪 DaaS 平台可以支持所有主流大数据平台、数据库(唯一企业级支持 Oracle 数据库,CDH/HDP Hadoop 数据湖,华为 MRS),集成全域数据,支持从多种云、碎片化的数据库提供统一的数据服务。
借助麦聪 DaaS 平台,完全开放的技术体系,客户可以延用最适合自己的业界产品,无需改变已有数据框架,有新的业务系统拓展也能兼容。
整体 TCO 优化,升级简单运维方便。
统一数据服务平台打破数据孤岛
(2)稳定优良——高性能体验佳
面对现在越来越多的实时性数据应用场景需求,高并发数据查询无可避免,麦聪 DaaS 平台单机版本即可支持 400 以上用户并发查询,每个用户查询返回条目数可以达到数千万-亿级数据量。
麦聪 DaaS 平台的数据下载支持流式数据写入,无线数据量 csv 下载,本地笔记本下载 3000 万行数据,仅需 150S;极大地促进了数据工程师等工作人员的工作效率。
超强性能
评论