DawnSql 在数据治理中的优势
数据治理的定义
根据 DAMA 国际数据管理协会对数据治理定义:数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。
数据治理的最终目标是提升数据的价值。
数据治理的流程
数据治理的主要流程:
数据集成
数据开发
数据质量
数据服务
1. 数据集成
数据集成主要包括两块:数据采集和清洗。
2.数据开发
数据开发包括编码研发和规范建模。编码研发用于构建计算任务,例如创建 SQL 代码任务、Shell 任务、Python 任务、MR 任务和 Spark 任务等;规范建模用于构建逻辑化的数据模型。
3. 数据质量
数据质量体现在:时效性、准确性、一致性
时效性
随着业务发展,企业对业务、产品和服务进行调整优化的速度也会增加,在使用一些比较强调实时性的数据时,企业的技术、分析和管理人员需要在短时间内使用数据,一旦数据不能及时利用,这个数据就很有可能就没有价值了。
准确性
如果数据不准确,那么就失去了数据的价值。所以未来保证数据的准确性。会做数据的准确性测试、以及数据的准确性监控。
一致性
提供给下游使用的数据,要有统一的口径和解释。通常情况下,指标是由分析师定义,但实际开发中,业务、产品、甚至是研发自己,也往往会定义一些指标,往往又会因为数据范围的不同,导致结果不一致。因此要避免结果的不一致性,数据的结果一定要有验证的过程。
4. 数据服务
数据服务是为数据的应用提供支持:决策支持、数据大屏、智能数据应用、其它服务
数据治理的架构
总体系统框架
总体技术框架
总体技术框架
数据平台
传统大数据平台
大数据平台_1
传统 MPP 平台
大数据平台_2
数据管理体系和运作机制
数据管理体系和运作机制
数据管理组织架构
数据管理组织架构
DawnSql 在数据治理中的优势
DawnSql 数据治理平台
DawnSql 架构图
1、降低成本
DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓
DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言
DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值
DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移
DawnSql 支持机器学习和扩展其方法结论:DawnSql = 传统大数据平台 + MPP 平台 + 微服务框架。也就是说原来需要多个系统,多个平台的支持,现在只需要 DawnSql 一个就可以了,开发成本,运维成本,硬件成本都极大的降低了。
2、提升数据价值
对比其他平台,DawnSql 在提升数据价值方面,它拥有更快的时效性和安全性。企业对数据的使用,会更快捷,更安全。因为 DawnSql 不仅仅是缓存,它还可以根据企业的实际的业务需求,对不同的人,不同的业务,赋予不同的数据读写权限。让数据更快捷、更准确、更安全的、被业务放使用。
评论