写点什么

1 分钟了解什么是数据湖?标准的数据湖什么样?

作者:雨果
  • 2022 年 9 月 05 日
    北京
  • 本文字数:364 字

    阅读完需:约 1 分钟

1分钟了解什么是数据湖?标准的数据湖什么样?

数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。

它通常把企业所有的数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。


数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。


数据湖的本质包含四个标准:1. 统一的存储系统;2. 存储原始数据;3. 丰富的计算模型/范式;4. 数据湖与上云无关。


从这四个标准来判断,开源大数据的 Hadoop HDFS 存储系统就是一个标准的数据湖架构,具备统一的原始数据存储架构。


近期被广泛谈到的数据湖,其实是一个狭义的概念,特指“基于云上托管存储系统的数据湖系统,架构上采用存储计算分离的体系”。例如基于 AWS S3 系统或者阿里云 OSS 系统构建的数据湖。

用户头像

雨果

关注

全球领先的DaaS厂商,构建下一代数据中台 2020.06.29 加入

500强集团企业中已有30家选用,支持元数据管理,数据治理,数据开发,数据服务化,数据市场等功能,欢迎浏览官网:maicongs.com

评论

发布
暂无评论
1分钟了解什么是数据湖?标准的数据湖什么样?_数据湖_雨果_InfoQ写作社区