写点什么

数据中台——数据汇聚存储技术解析

用户头像
用友YonBIP
关注
发布于: 8 小时前
数据中台——数据汇聚存储技术解析

数据汇聚存储是数据中台的核心技术能力之一。数据中台针对不同的业务数据类型、业务系统技术架构,设计不同的数据采集策略、数据同步规范、数据质量控制规范、数据存储方案等,实现业务中台数据、应用系统数据的集成汇聚。



结构化数据采集存储


来自信息系统、文本文件、API 服务等结构化数据仍然是数据中台主要的数据来源,这类数据通过采集被存储在 Oracle 等关系型数据库、或者 Greenplum MPP 数据库中,以便提供数据的深度分析与应用。对时效性不敏感的数据,一般可以选择 T+1 模式来批量抽取数据,对于部分时效要求高的表,可以采用实时同步的方式。根据数据应用场景的不同,决定明细数据是直接加载,还是在 ETL 服务器上汇总后再加载入库。

T+1 数据同步场景

常规业务场景下,数据抽取频率为每天一次,也可以根据需要设置为按分钟、按小时进行批量数据同步。维度表单表数据量较小,时效要求中等,采用全量同步方案,每次抽取清空历史数据,然后全量加载。事实表数据量大,时效要求中等,采用增量更新方案,通过时间戳和业务标识识别增量数据。

实时数据同步场景

对于事实表单数据量较大,时效要求高的数据,采用实时同步方案。每次源数据发生增删改除等操作时,自动读取数据库的操作日志,将改变的数据同步到数据中台的同名表中。


IoT 系统数据采集方案


越来越多的数据项目涉及到了物联设备的数据应用,针对 Iot 等数据的采集,数据中台也提供了针对性的解决方案。

数据中台 IoT 接入涉及 Kafka 消息队列集群,大数据存储组件,数据计算单元和数据展示单元。IoT 数据通过数据计算,支持数据模型的深度应用,例如利用机器学习技术判断设备运行状态等数据分析场景。

IoTDB 由于其轻量级的结构、高性能和可用的特性,以及与 Hadoop 和 Spark 生态的无缝集成,满足了工业 IoTDB 领域中海量数据存储、高吞吐量数据写入和复杂数据分析的需求。可以提供数据收集、存储和分析等特定的服务。



非结构化数据采集存储


非结构化数据包含视频、音频、图片、日志文件、备份数据和容器/虚拟机镜像等不同类型,并且一个对象文件可以是任意大小,从几 kb 到最大 5T 不等,存量数据较大,同时数据的增量也较快。

数据湖针对此类非结构化数据,采用 Minio 存储源文件,Mysql 存储对应的数据元信息的解决方案,便于管理。

Minio 是兼容亚马逊 S3 云存储服务接口的对象存储服务,非常适合于存储大容量非结构化的数据。而元信息与源文件是同一生命周期的,需要在同一事务中添加或者删除。

从成本角度考虑,有文件入湖和索引入湖两种方案可以选择。

索引入数据中台

视频、音频文件、图片数据只将索引数据采用定时抽取的方式同步入数据中台,数据保留在原始物理存储位置不变。

文件入数据中台

视频、音频文件,或保存在数据库中图片数据可以采用 T+1 定时抽取的方式同步数据,数据抽取到数据湖中进行存储。

汇聚的数据资源经过数据治理形成企业数据资产,支撑数据计算、数据共享等深度应用,帮助企业快速的从海量数据中挖掘价值,满足企业对数据的应用需求。

发布于: 8 小时前阅读数: 4
用户头像

用友YonBIP

关注

还未添加个人签名 2021.08.03 加入

还未添加个人简介

评论

发布
暂无评论
数据中台——数据汇聚存储技术解析