写点什么

解密金融行业数据云平台建设密码

作者:数造万象
  • 2022-11-25
    广东
  • 本文字数:4156 字

    阅读完需:约 14 分钟

解密金融行业数据云平台建设密码

当前,数据成为新的生产要素,数字科技成为新的发展引擎,数字经济浪潮已势不可挡。金融行业各大机构纷纷加大金融科技投入力度,全面提升数字化运营能力,进一步加速了自身数据生态的演进,打造“客户+科技”、“流量经营”、“场景+生态”和“数字化平台”等数字化经营模式,已成为金融行业的发展战略趋势。

在这一背景下,金融行业的发展迫切需要打造统一的数据赋能型云平台,集成数据整合、数据开发、建模分析、质量管控、可视交互等功能,支持同时处理离线数据和在线数据,具备数据化服务能力,提供实时的数据服务,通过数据分析来推进数字化线上/线下经营,促进业务发展,助力金融行业的数字化转型发展。


一、金融行业痛点分析

数据是金融运行的“血液”,金融机构经营也是经营数据。数字化转型本质上是利用数字化的思想、理论、方法和技术实现业务数据化和数据业务化的过程。在数据驱动模式下,数据中台体系能力建设是金融机构强化数据能力较为常见的选择。尽管当前金融行业数据能力建设取得重大进展,但全面数字化转型仍面临较多难题:

1、缺乏统一的数据开发服务平台

传统的大数据建设通过拼接不同厂商的产品和工具来完成,需要花费大量时间来做异构产品的集成适配,费时费力,运维成本高。同时,随着金融机构的发展壮大,各级分支机构、部门之间无法调用数据,进一步阻碍金融机构的发展。

2、数据治理分散,没有形成闭环管理

缺乏数据治理与管理方法论,无法通过工具实施数据标准,缺乏可衡量、可管控的数据质量,难以形成可见、可控、可用、可信的数据资产服务能力。难以定位数据,对有价值数据未能实现充分利用。3、数据等待时间长,强依赖 IT

受制于传统数据库/数据仓库发展的技术路线的制约,在新的互联网背景下,存量客户的优化、激活、流失预警,增量客户的获客、提升、传播的体系仍欠缺,产品、权益丰富但同质化程度比较高,难以针对客户寻求差异化的营销方案触达。

4、数据安全合规挑战大

在数字化过程,数据的全生命周期包括数据收集、存储、使用、加工、传输、提供、公开等过程,数据安全问题也与之伴随而来。在高标准、严法律、强监督等外部因素驱动下,以及数据安全的复杂性、广泛性、共生性,“安全用数“成为金融机构当前业务稳定运行和创新发展的迫切需要。


二、金融行业数据云平台总体规划


云和大数据技术的普及和演变,数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强,湖仓一体的出现让数据管理的灵活性与成长性得到了统一。同时,企业数字化转型促使更多业务型数据消费角色的出现,数据管理要求从传统模式演变为开发管控一体化模式。

针对金融机构的数据云平台建设将从“平台” 、“数据”、“应用” 三方面考虑规划实施,以平台建设是支撑,数据治理是基础,应用是效益打造具有大数据能力基础,实现从数据到资产,提供可视化、智能化的湖仓一体数据云平台。


相信大数据平台、数据中台、算法中台这些名词,大家都耳熟能详了。那什么是数据云平台?

“数据云平台”是新一代的敏捷数据管理平台,以跨平台、云原生、自主可控为技术内核,提供敏捷的一站式数据开发、数据治理和数据交付能力,实现企业数据资产化,数据业务化,支撑企业的数智化、场景化和个性化的应用,最终帮助企业有效应对大规模、强敏态、高时效、智能化等愈发明显的数字化趋势。


数据云平台架构

  • 平台:大数据能力的基础

通过构建数据集成开发平台实现数据快速加工,打通包括客户、产品、销售、风险管理在内的各类数据,并快速生成数据平台类目体系。

  • 数据:从数据到资产

基于人、物、场景打通数据链接,建设有扩展能力与服务能力的统一数据中心,让数据可流动、可计量、可管控、可增值,挖掘数据价值使数据以服务化的方式实现业务增值及创造新的数据业务。

  • 应用:数据能力的表现

基于内部数据汇集加工而成标签对客户、直销员、产品建立画像模型,为客户关怀、精准营销、风控模型等数据应用服务提供数据以及应用的支撑。


三、金融行业数据云平台建设方案


针对数据云平台建设,将通过四个阶段先后实施满足数据工程、数据治理、数据服务、数据规范等功能,助力金融行业数字化驱动业务发展。

第一阶段 数据工程-离线开发


数据集成:表集成、数据复制、数据源

实现从关系型数据库及 Teradata 数据集成到 Hive;从 HDFS 到 Hive 以及 Hive 到 HDFS 的数据集成,支持更多的关系型数据库以及非关系型数据库数据源连接。

批量数据开发:任务开发、工作流编排、调度配置

实现 HiveSQL、Shell、Pyhton 等脚本的 IDE 模式开发;实现编排工作流,配置任务依赖以及工作流依赖功能;实现配置 cron 表达式定时执行工作流功能。调度监控:触发调度、任务配置、监控告警

实现工作流定时周期调度或手动触发调度功能;实现配置任务并发度、失败重试以及超时失败功能;实现工作流监控并且失败告警功能。

建设关键点 01:数据权限设计

  • 权限分配到部门或项目;

  • 隶属某个部门的用户获得该部门的所有数据权限;

  • 作为成员加入到某个项目的用户获得该项目的所有数据权限;

  • 部门和项目对应 LDAP 用户组;

  • 将部门和项目对应的 LDAP 用户组添加到用户的用户组列表里

建设关键点 02开发管控一体化

(1)从开发角度看管控,通过数据建模来统一指标和模型,并通过模型生成开发代码,保障了设计态和生产态的一致性。

(2)从管控角度看开发,实现数据从开发到上线的全流程自动无感管控和治理,保障数据开发的效率和质量。


第二阶段 数据治理

元数据管理:元模型管理、元模型采集、数据/任务地图、数据血缘、元数据差异分析

实现可自定义配置元模型属性的元模型管理;实现定时采集分行项目、工作流以及库表元数据功能;实现数据/任务地图进行快速找数功能;实现查看表血缘关系,支持去除操作节点、查看上游\下游功能;实现表差异化管理,并分析表当前版本与上一个版本的差异化对比功能。

数据安全:数据权限、数据脱敏、数据全生命周期、资产概览

实现通过数据地图申请表数据的读写权限,并生成对应的审批流程;实现配置表的脱敏字段以及对应的脱敏函数功能;实现配置表生命周期,并根据配置对表数据进行归档或删除功能;实现统计平台项目、工作流、任务、库、表以及字段等资产信息。


建设关键点 03:全域数据资产管理

统一元数据体系建设,保障了底层保持唯一性,丰富字段说明;中间层提供元数据控制中心;顶层提供标准统一的数据应用出口。敏捷数据云平台能够发现企业全域的数据资产信息,并将其按照一定的分类进行组织和描述,让数据消费者能够通过智能检索找到分析所需的数据,并清晰地理解数据背后的完整含义。


第三阶段 数据服务、数据工程

数据 API:API 开发、API 发布、API 监控、API 管理、API 集市

实现基于 Impala\Mysql 连接的 SQL 语言 API 功能开发;实现将 DataToAPI/URLAPI 发布到 k8s 功能;实现监控已发布的 API 状态,并实现失败告警功能;实现 API 加密,需要申请获取对应的 API 应用才能有权限进行 API 调用;实现 API 集市共享 API,用户通过 API 集市查找需要的 API 并申请使用。

数据探索:统一查询界面、 安全集成、 统一查询引擎

实现 Hive、Impala、Mysql 以及 Moonbox 等数据源的统一数据查询功能;实现权限隔离,根据不同的用户分配不同的权限进行查询功能;实现统一查询引擎功能。

数据科学:实现集成 Notebook、Spark 以及 Kubernetes 功能


建设关键点 04:从数据到 API


支持在线对 API 的开发,在项目空间内通过 SQL 对数据表的适配,实现 API 的开发;

可实现 SQL 数据预览,并自动解析 SQL 获取 API 的入参和出参,定义参数属性;

完善服务基本信息,包括服务名称、服务有效时间、服务简介、内容详情;

每个 API 是一个 pod(易管理、可针对高使用频率的 API 独立横向拓展、调用无需查询数据库获取 SQL 语句【共同 pod 存在该问题】)。

第四阶段 数据工程、数据规范

实时数据开发:实现基于 IDE 模式的 FlinkSQL 作业开发功能;实现支持 Kafka、Hbase、JDBC 等多种数据源的虚拟表构建功能;实现对实时作业运行结果集采样功能;实现将实时作业结果通过查询过滤发布成 API 功能;实现用户编写 FlinkJar,并通过实时平台统一运行监控功能。

模型设计:实现基于维度建模的维度逻辑表、事实逻辑表以及汇总逻辑表的创建功能;实现将逻辑表批量物理化到 44 家分行的功能;实现规范化主题域管理,并且主题域支持不同的类型分组维护。


建设关键点 05:数据实施开发计

传统统数据整合方法受制于各类开发工具、数据开发人员、ETL 研发流程与数据架构设计等因素,少则几天,多则数周才能获得结果,而数造科技数据开发管理技术可以实时响应数据需求。对于数据及时性要求较高,有实时计算的场景,例如精准推荐、实时风控、安全生产监控等应用的,可以提供实时数据开发平台满足实时数据、指标的开发。


四、金融数据云平台建设优势

随着方案的逐步落地与推广,数造科技帮助金融行业客户实现统一、自助、智能的数据云平台管理模式,提供了数据自助开发能力、数据自助分析能力、数据治理能力,为未来数字化转型发展与数据管理务实了基础。1、统一的数据开发管控平台

一站式数据开发平台具有强大的数据集成能力,支持大规模混合结构数据集成,统一的数据探索能力,多种数据探索方式和工具结合,并且解决了以往数据开发过程复杂、协作困难的问题。分别从管理域、开发域、流程域,结合金融机构不同场景积累成熟的数据能力解决方案,提供数据全生命周期的全流程服务。

2、提升数据治理能力

围绕金融行业的标准进行数据治理的延伸;提供分支机构的数据服务接口,简化数据资产共享机制。同时,以维度建模为理论基础进行体系化建模,以事前治理的理念驱动,让元数据贯穿其中的建模流程,上承指标、维度的定义,下接实际的数据生产,提前对数据进行规范约束,减少后期的数据治理的复杂度。

3、快速响应数据需求

数据地图让企业告别取数低效的烦恼,快速搜数据、查数据,取数和开发效率提升可达 100%。BI 服务支持上万个仪表盘、近十万个工作表上线,实现通过数据分析工具,让数据转换为知识,提升行内数字化精细化经营的洞察能力,从数据相关性到业务因果分析,促进高价值数据使用。

4、满足数据安全合规

在统一的数据云平台中,金融机构的数据开发任务从设计态到运营态,且跨开发环境、测试环境和生产环境的任务发布流程保障在统一的平台中闭环完成,使数据开发过程更标准化、协作性更强、安全性更高。同时,通过数据地图申请表数据的读写权限,对敏感数据进行脱敏,满足金融行业的数据安全合规。

用户头像

数造万象

关注

还未添加个人签名 2022-02-22 加入

还未添加个人简介

评论

发布
暂无评论
解密金融行业数据云平台建设密码_数造万象_InfoQ写作社区