写点什么

数据湖特点

发布于: 2 小时前

最近看到不少公众号发《数据湖》相关的文章,最开始也是觉得这些就是换汤不换药,只不过加了一些非结构的东西,又造出了一些概念。接下来我们看一下数据湖的特点:

数据方面:

1. 保真性。数据湖对于业务系统的数据会存储一份一样的数据,对于结构化数据,这就相当于数仓中的 STG/ods 层的数据数据不被加工和修改,与源系统保持一致,不过数据湖可以存储多种类型的数据。

2. 灵活性。数据仓库一般是需求驱动,根据不同的业务场景变换不同的模型、提供不同的服务接口,总之,数据价值密度是比较高,而数据湖可以存储结构化,半结构化,非结构化的数据,数据价值密度低,可以利用 AI,机器学习等新兴基础进行数据价值挖掘,灵活性高,特别适用于创新性企业。同时,数据湖的用户要求也相对较高,数据科学家,数据挖掘分析师等都是数据湖的目标客户。

3. 可管理。数据湖提供了完善的数据管理能力,湖中存储了原始数据和清洗后的数据,且数据湖中的数据会不断积累,对数据管理能力要求较高,至少应该包含数据血缘、数据连接、数据标准等。

4. 可追溯,数据湖提供了一个数据存放的空间,需要对数据进行全生命周期管理,包括数据的接入,存储,加工,应用,服务等全流程能够清楚的重现数据完整的生产过程和流出过程。

对于企业数据湖,还需要有定义的机制来编目和保护数据。没有这些元素,就无法找到或信任数据,从而导致出现“数据沼泽”。 满足更广泛受众的需求需要数据湖具有管理、语义一致性和访问控制。

发布于: 2 小时前阅读数: 4
用户头像

还未添加个人签名 2018.11.20 加入

还未添加个人简介

评论

发布
暂无评论
数据湖特点