数据中台——数据汇聚存储技术解析
数据汇聚存储是数据中台的核心技术能力之一。数据中台针对不同的业务数据类型、业务系统技术架构,设计不同的数据采集策略、数据同步规范、数据质量控制规范、数据存储方案等,实现业务中台数据、应用系统数据的集成汇聚。
结构化数据采集存储
来自信息系统、文本文件、API 服务等结构化数据仍然是数据中台主要的数据来源,这类数据通过采集被存储在 Oracle 等关系型数据库、或者 Greenplum MPP 数据库中,以便提供数据的深度分析与应用。对时效性不敏感的数据,一般可以选择 T+1 模式来批量抽取数据,对于部分时效要求高的表,可以采用实时同步的方式。根据数据应用场景的不同,决定明细数据是直接加载,还是在 ETL 服务器上汇总后再加载入库。
T+1 数据同步场景
常规业务场景下,数据抽取频率为每天一次,也可以根据需要设置为按分钟、按小时进行批量数据同步。维度表单表数据量较小,时效要求中等,采用全量同步方案,每次抽取清空历史数据,然后全量加载。事实表数据量大,时效要求中等,采用增量更新方案,通过时间戳和业务标识识别增量数据。
实时数据同步场景
对于事实表单数据量较大,时效要求高的数据,采用实时同步方案。每次源数据发生增删改除等操作时,自动读取数据库的操作日志,将改变的数据同步到数据中台的同名表中。
IoT 系统数据采集方案
越来越多的数据项目涉及到了物联设备的数据应用,针对 Iot 等数据的采集,数据中台也提供了针对性的解决方案。
数据中台 IoT 接入涉及 Kafka 消息队列集群,大数据存储组件,数据计算单元和数据展示单元。IoT 数据通过数据计算,支持数据模型的深度应用,例如利用机器学习技术判断设备运行状态等数据分析场景。
IoTDB 由于其轻量级的结构、高性能和可用的特性,以及与 Hadoop 和 Spark 生态的无缝集成,满足了工业 IoTDB 领域中海量数据存储、高吞吐量数据写入和复杂数据分析的需求。可以提供数据收集、存储和分析等特定的服务。
非结构化数据采集存储
非结构化数据包含视频、音频、图片、日志文件、备份数据和容器/虚拟机镜像等不同类型,并且一个对象文件可以是任意大小,从几 kb 到最大 5T 不等,存量数据较大,同时数据的增量也较快。
数据湖针对此类非结构化数据,采用 Minio 存储源文件,Mysql 存储对应的数据元信息的解决方案,便于管理。
Minio 是兼容亚马逊 S3 云存储服务接口的对象存储服务,非常适合于存储大容量非结构化的数据。而元信息与源文件是同一生命周期的,需要在同一事务中添加或者删除。
从成本角度考虑,有文件入湖和索引入湖两种方案可以选择。
索引入数据中台
视频、音频文件、图片数据只将索引数据采用定时抽取的方式同步入数据中台,数据保留在原始物理存储位置不变。
文件入数据中台
视频、音频文件,或保存在数据库中图片数据可以采用 T+1 定时抽取的方式同步数据,数据抽取到数据湖中进行存储。
汇聚的数据资源经过数据治理形成企业数据资产,支撑数据计算、数据共享等深度应用,帮助企业快速的从海量数据中挖掘价值,满足企业对数据的应用需求。
版权声明: 本文为 InfoQ 作者【用友YonBIP】的原创文章。
原文链接:【http://xie.infoq.cn/article/811c4ce3182d6f3f6e541c720】。文章转载请联系作者。
评论