CSDN Meetup 回顾 丨从数据湖到指标中台,提升数据分析 ROI
近日,Kyligence 合伙人兼副总裁李栋受邀出席 CSDN 云原生系列在线峰会。在第 13 期 “ 现代数据栈峰会 ”上,李栋从指标中台的趋势和背景出发,围绕指标中台的真实案例,对 Kyligence 实现指标中台的过程及提升数据分析 ROI 的经验进行了详细分享。
1. 什么是“指标中台”
指标是衡量事物的标准,数据分析的关键就是找到正确指标并获得洞察,并开展经营决策。指标中台(Metrics Store)是当下流行的技术之一。
在传统的数据分析场景中,往往会把数据统一接入到一个数据平台,例如数据湖、数据仓库等技术。通过一系列 ETL 开发后,将数据对接到下游的 BI 或自研的数据应用,数据分析师或业务用户通过查看报表和数据应用来查看指标数据,并对指标进行洞察分析和开展业务决策。
这种情况下,所有业务指标分散存储在各个 BI 报表或应用系统当中,当指标数、用户数越来越多时,数据管理和指标管理会产生很大的混乱。例如指标在不同报表中出现同义不同名、同名不同义、数据口径不一致、时间对不齐等难题,极大降低了业务用户对数据的信心。
指标中台的出现,旨在通过一个平台统一管理所有业务指标,以及指标背后的数据。指标中台不仅可以解决前面提到的技术挑战,赋能业务人员更自助、更有信心地使用数据,还能帮助 IT 团队创造更高业务价值。
2. 影响数据分析 ROI 的障碍
国内某一线互联网企业,早年开始数字化建设,并搭建了数据湖来汇总存储各个来源的数据。按照传统的方式,所有的源表(ODS 表)落到数据湖上后,业务用户无法直接使用这些源表,需要经过 ETL 开发宽表和聚合表才能被下游业务使用。
这就带来了两方面的问题:
宽表爆炸:最初仅有 5.7 k 张 ODS 表,却膨胀至近百万张宽表和聚合表,给数据存储和数据管理带来极大负担;此外,每个宽表都需要 ETL 开发和管理工作,对计算资源和管理复杂度也是很大挑战;
难以使用:这么多的宽表和数据表,用户在使用时很难快速定位需要分析的指标存在哪张表上,数据使用的效率很低。
由此可见,影响数据分析 ROI 的障碍主要是:
指标口径不一致:数据量很大,但缺少信任;
“浑浊”的数据湖——宽表爆炸,数据存储和 ETL 任务冗余;
IT 成本 &时效性—— IT 成本和开发效率随数据量和用户量增长而难以控制。
3. 通过指标中台解决上述挑战
传统在数据湖中加工和分析指标的方式,是经过 ETL 为每个指标开发宽表和聚合表(如下图所示)。虽然很多指标背后的数据是可以复用的,但因为需求来自不同业务部门,缺少数据共享,最终只能重复开发,生成大量冗余的宽表和聚合表。
使用指标中台后,所有的数据指标被统一管理,并形成指标体系,如基础指标、衍生指标等。如果不同的指标背后对应的数据模型是同一个,那么指标的加工和计算过程是可以复用的。如果是同一份数据按不同口径服务不同业务,则通过衍生指标灵活响应业务需求,既能满足业务多变的需求,又能避免数据冗余导致的宽表爆炸。
由此可见,在指标中台里“指标”成为数据和业务交互的主体,通过对“指标”的标准化,形成数据开发和管理的标准化。
下图展示的是某银行企业使用指标中台前的状况。银行业务人员需要对用户的消费行为进行分析,从交付指标到获得相关数据,通常需要 12 个工作日甚至更长时间。数据开发效率低、需求交付周期极长。
我们来看看该银行使用指标中台后的情况。如下图所示,指标中台允许非技术人员自助管理衍生指标,并通过拖拽现成指标的方式创建仪表板,端到端交付时间减少 50%,从需求到开发,流程轻松省时、企业人效大幅提升。
4. 指标中台的能力
从技术角度来讲,指标中台的能力主要展现在四个方面。
指标目录:统一管理所有业务指标口径
从数据湖的表开始定义指标,包括基础指标和衍生指标,并将所有指标管理在一个平台中,实现业务指标的统一管理。
指标自动化:以指标管理数据,消除宽表操作
根据指标定义的逻辑对底层数据进行加工、预计算,并根据指标所在的数据模型进行合并,消除宽表爆炸。若是指标很少被访问或是不再被访问,可以自动清理指标数据的预计算结果。此外,系统也会智能地向用户推荐常用的或关联度高的指标,提升找指标的效率。
目标管理:用目标管理指标,形成指标体系
管理指标的目的是帮助企业实现业务目标管理的目的,因此通过管理目标的方式管理指标,形成指标体系,可帮助企业更好地达成目标。
API 集成:构建数据应用,一致消费指标数据
当指标和目标完成定义,系统需要一个出口。通过标准的指标 API ,让用户轻松构建数据应用,为应用提供一致的数据来源,消除指标割裂和数据孤岛。
5. Kyligence 指标中台产品实践
Kyligence 基于指标中台实践经验和 OLAP 基础能力,上线了智能指标驱动的管理和决策平台 Kyligence Zen。在本次演讲中,李栋以零售订单分析场景为例,演示了该产品的主要功能。
导入数据
只需把订单数据上传到 S3 ,并输入 S3 链接地址,就可以快速把数据接入到指标中台。
导入指标
通过 YAML 文件定义好销量和利润等零售业务指标,即可一键导入。通过这种方式,可以轻松地把业务指标从 BI 平台批量接入指标中台。
管理指标
所有指标以卡片的方式被统一管理。对于零售企业,无论是集团管理人员还是门店店长,看到的都是同一套指标,以及同一套数据。
管理目标
为了更好地使用指标支持业务决策,可以创建目标来管理指标,从业务角度管理指标体系。
指标可视化
所有指标还可以灵活地制作可视化仪表盘,方便业务人员自助查看指标和进行归因分析。除此之外,指标也可以通过 API 对接其他数据应用。
6. 总结
指标中台可有效解决数据湖上数据分析效率低下的问题,从而将 IT 团队从重复的报表开发工作中释放出来,投入到业务指标体系的管理和持续运营之中,并创造更多业务价值,大大提升企业的人效。
关于 Kyligence
上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 创始团队于 2016 年创办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 增强的高性能分析引擎、统一 SQL 服务接口、业务语义层等功能,Kyligence 提供成本最优的多维数据分析能力,支撑企业商务智能(BI)分析、灵活查询和互联网级数据服务等多类应用场景,助力企业构建更可靠的指标体系,释放业务自助分析潜力。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售等行业客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等全球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成全球合作伙伴关系。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。
版权声明: 本文为 InfoQ 作者【Kyligence】的原创文章。
原文链接:【http://xie.infoq.cn/article/d9fc9e1f102423ed098854819】。文章转载请联系作者。
评论