写点什么

如何快速搭建统一数据服务,让数据资源成为数据资产

作者:Kyligence
  • 2021 年 12 月 08 日
  • 本文字数:1955 字

    阅读完需:约 6 分钟

如何快速搭建统一数据服务,让数据资源成为数据资产

在数字化转型时代,各行各业的日常工作都与数据息息相关,企业 IT 团队都在不断优化平台技术,为业务用户提供更加高效、便捷的数据使用体验。笔者和社区用户交流时,见到一类“数据微服务”的设计,和我们的设计思路非常一致,希望借此文章和各位读者交流。

01 业务背景

在业务快速增长的时候,很多企业会选择「先发展、再治理」的模式,为了满足业务需求而采用了多套不同的业务系统,不同的业务系统就会依赖不同的数据库(业务早期经常会直连业务库分析),比如 Oracle、MySQL 等等,久而久之就形成了数据孤岛。IT 团队为了支撑跨业务融合分析和统一管理,还会搭建大数据平台、数据仓库等架构,对数据进行统一管理和运营。但随着业务发展对数据的需求越来越大、要求越来越高,各类问题也开始出现:

  • 开发链路长,业务提需求后要等很久,IT 才能交付

  • 技术方案多、选型难,语言和接口也不一致,开发效率低下

  • IT 团队疲于交付,大部分时间都在做重复的工作

IT 团队对于这类的挑战往往苦不堪言,一边是苦闷的现状,一边是数据仓库、数据湖、湖仓一体等专业架构,再一边是对数据统一存储统一管理统一服务的美好愿景,到底该何去何从?

02 统一数据服务

在云时代,很多数据因为管理、效率、合规等多方面要求,天然就是多源、多域的割裂状态。因此,一些企业开始通过构建统一的数据服务平台来解决这一问题。


常见的统一数据服务平台,往往会要求数据工程师或开发者通过 SQL 定义一个数据集,然后通过微服务架构把这个 SQL 数据集发布成为数据服务,供业务应用直接取数。如此这般,业务应用无需关心使用的数据是从哪个数据库取的,而只需要关心数据集本身。除此之外,SQL 数据集可能还会包含一个数据库连接串,用于在运行时将 SQL 发送到正确的数据库获取数据。


通过统一的数据服务平台,业务应用可以更加自助地获取数据,而无需关心底层数据源或引擎,而且一旦底层数据平台需要升级或迁移的时候,也可以轻松避免对业务的影响,大大提高整个数据链路的效率。

03 实现的难点

想要搭建这样的统一数据服务平台,并给用户提供最简洁的使用体验,最大的难点在于实现统一接口和统一管理:

  • 统一接口:不同数据源的 SQL 方言、连接信息不同,服务层需要实现不同数据源的统一封装,对业务层提供统一的 SQL 方言和使用体验

  • 统一管理:主要是权限管理,因为不同数据源的权限管理方式不同,服务层需要实现统一的权限管理,为业务方保证数据安全和隐私保护

除此之外,IT 团队还要不断建设数据仓库,即根据业务使用的情况定期把数据从业务数据库搬迁到数据仓库里,然后把业务应用的流量从业务数据库切换到数据仓库上。如何透明地实现数仓迁移,也是一个重大挑战。

04 自动化是王道

Kyligence 提供自动化的解决方案,可以有效解决这一挑战。Kyligence 帮助企业在割裂的多数据源之上提供一个受治理的数据集市,以实现统一的数据管理和数据服务,通过以下特性,帮助企业解决上述的难点:

  • 多数据源:支持 Hadoop、RDBMS、Kafka 等多种数据源,以及批流一体

  • 统一接口:对外提供统一的 SQL 和 MDX 查询语言,实现不同 SQL 方言的统一封装

  • Smart Pushdown:通过智能查询下推,把查询路由到特定的数据源或查询引擎当中

  • 统一数据权限管控:支持表级、行列级的数据权限控制,为不同用户仅返回有权限的查询结果

那么「自动化」体现在何处呢?在 Kyligence 智能数据云内置 AI 增强引擎,能够根据查询历史推荐“多维立方体”,也就是说,对于业务常用的维度和度量,系统会根据规则自动推荐多维模型,并自动进行数据加工,把数据从业务库抽取到 Hadoop 平台上。当业务再有查询需求,就由 Hadoop 平台上的“多维立方体”来回答查询,而不再需要业务库。这不就是透明地完成了数仓迁移的需求吗?

05 什么是最有价值数据?

随着业务应用不断增多,系统中会出现成千上万的 SQL 数据集,业务数据库和数据仓库中也会出现成千上万张表。IT 团队要花费大量的人力、物力、财力来开发和维护它们,那么这些数据集和表对于 IT 团队来说,到底是资产,还是债务?


答案很简单:It depends,这取决于数据的价值。数据的价值该如何体现?前面提到,随着业务分析越来越多,Kyligence 系统会自动推荐“多维立方体”,我们转变一个角度,这些“多维立方体”本身就是底层数据的业务描述,就是数据资产


对于 IT 团队而言,不仅通过统一数据服务架构满足了服务业务团队的需求,还能不断地沉淀数据资产,真正地识别和管理最有价值的数据。


3 步快速开始


讲到这里,笔者用自家产品快速做了一个 Demo 尝试,再来整体介绍一下这套方案:


1)通过 SQL 定义数据集,并发布出来供业务分析

在 Kyligence 的 SQL Lab 定义数据集,并用于探索分析


2)通过 AI 增强引擎分析查询历史,推荐数据模型和索引(多维立方体)

在 Kyligence 使用 AI 增强引擎,进行智能推荐


3)查看和管理数据模型

智能推荐的数据模型


用户头像

Kyligence

关注

还未添加个人签名 2021.11.08 加入

还未添加个人简介

评论

发布
暂无评论
如何快速搭建统一数据服务,让数据资源成为数据资产