写点什么

015 云原生之大数据技术

发布于: 刚刚
015云原生之大数据技术

在传统数据仓库以 ETL/BI 为主要场景的基础上,增强了数据实时捕获、实时分析的能力,数据洞察由 T+1 转变为支持 T+0 的实时分析能力,并提供更实时的决策支持能力


云原生数据仓库整体采用存储与计算分离的架构,数据加密存储于分布式文件系统中,计算节点可以部署于容器、虚拟机或物理机中。客户可以根据对资源的需求灵活配置资源,达到资源利用率的最大化,从而节约成本。

数据湖首要的功能是集中存储企业的全部数据,包括原始数据和加工数据,然后支持各种数据处理,包括离线 ETL、实时分析和机器学习,对数据进行挖掘与分析,洞察数据的价值以支持业务决策。按照数据类型来区分,数据分为结构化数据(数据库表)、半结构化数据(日志)、非结构化数据(文档)甚至二进制数据(图像、音视频等)


数据湖收集数据时无须设计好数据结构,不需要像数据仓库那样事先定义模式,而是在分析时根据业务场景再给出模式,从而使数据收集更加敏捷。


数据湖架构,特别是云原生下的数据湖架构,作为一个架构分层,主要包含湖存储、湖加速、湖计算和湖管理几个组成部分。


业界主要通过两种主流的做法来处理数据乱序:一种是在获取输入的点上缓存数据,对无序的数据进行排序之后成批处理;另一种是在数据输入的时候容忍乱序的数据,并能够根据最新的数据时间重新进行调整和计算


主动待机的做法是同时运行两个相同的进程,并在主处理进程发生错误时切换到辅助实例。这种做法可以确保非常高的可用性,是一些关键应用的首选方案。与之不同的是,被动待机的做法只有在错误发生之后,才会在一些空闲的资源上拉起新的处理进程,同时借助全局状态回滚等操作在新启动的实例上继续之前的操作。

发布于: 刚刚阅读数: 3
用户头像

InfoQ签约作者 2018.11.30 加入

还未添加个人简介

评论

发布
暂无评论
015云原生之大数据技术