015 云原生之大数据技术
在传统数据仓库以 ETL/BI 为主要场景的基础上,增强了数据实时捕获、实时分析的能力,数据洞察由 T+1 转变为支持 T+0 的实时分析能力,并提供更实时的决策支持能力。
云原生数据仓库整体采用存储与计算分离的架构,数据加密存储于分布式文件系统中,计算节点可以部署于容器、虚拟机或物理机中。客户可以根据对资源的需求灵活配置资源,达到资源利用率的最大化,从而节约成本。
数据湖首要的功能是集中存储企业的全部数据,包括原始数据和加工数据,然后支持各种数据处理,包括离线 ETL、实时分析和机器学习,对数据进行挖掘与分析,洞察数据的价值以支持业务决策。按照数据类型来区分,数据分为结构化数据(数据库表)、半结构化数据(日志)、非结构化数据(文档)甚至二进制数据(图像、音视频等)。
数据湖收集数据时无须设计好数据结构,不需要像数据仓库那样事先定义模式,而是在分析时根据业务场景再给出模式,从而使数据收集更加敏捷。
数据湖架构,特别是云原生下的数据湖架构,作为一个架构分层,主要包含湖存储、湖加速、湖计算和湖管理几个组成部分。
业界主要通过两种主流的做法来处理数据乱序:一种是在获取输入的点上缓存数据,对无序的数据进行排序之后成批处理;另一种是在数据输入的时候容忍乱序的数据,并能够根据最新的数据时间重新进行调整和计算。
主动待机的做法是同时运行两个相同的进程,并在主处理进程发生错误时切换到辅助实例。这种做法可以确保非常高的可用性,是一些关键应用的首选方案。与之不同的是,被动待机的做法只有在错误发生之后,才会在一些空闲的资源上拉起新的处理进程,同时借助全局状态回滚等操作在新启动的实例上继续之前的操作。
版权声明: 本文为 InfoQ 作者【穿过生命散发芬芳】的原创文章。
原文链接:【http://xie.infoq.cn/article/8b14d235af921824aba3d78ba】。文章转载请联系作者。
评论