1 分钟了解什么是数据湖?标准的数据湖什么样?
数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。
它通常把企业所有的数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。
数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。
数据湖的本质包含四个标准:1. 统一的存储系统;2. 存储原始数据;3. 丰富的计算模型/范式;4. 数据湖与上云无关。
从这四个标准来判断,开源大数据的 Hadoop HDFS 存储系统就是一个标准的数据湖架构,具备统一的原始数据存储架构。
近期被广泛谈到的数据湖,其实是一个狭义的概念,特指“基于云上托管存储系统的数据湖系统,架构上采用存储计算分离的体系”。例如基于 AWS S3 系统或者阿里云 OSS 系统构建的数据湖。
评论