写点什么

架构师训练营第十二周笔记

用户头像
李日盛
关注
发布于: 2021 年 01 月 08 日

本周开始学习大数据相关内容。


现有的大数据生态是在 Hadoop 出现以后开始逐步建立的,而 Hadoop 的理念则来源于 2004 年 Google 发表的三篇论文,也就是 GFS,MapReduce 和 BigTable。这里就建立了大数据平台的的基础。其中,HDFS 属于 GFS 的开源实现,完成了分布式文件存储的各种功能。MapReduce 则指明了分布式集群如何对数据进行切分和并行计算,Hadoop 负责实现这个计算任务的调度和执行。BigTable 采用列式来存储数据,解决传统数据库无法进行海量数据存储和查询的问题。


在 hadoop 的基础上,整个大数据生态就开始建立起来。有批处理的 mapredus,spark,也有基于流处理的 storm,spring streaming 和 Flink,也有基于列式存储的 NoSQL 数据库 cassandra 和 HBase。在基础的计算和存储产品丰富起来以后,越来越多的人享受大数据带来的红利。这个时候大数据仓库,如 Hive,SparkSQL 这些方便传统数据分析人员接入的工具应运而生。新兴的大数据挖掘和机器学习框架,如 TensorFlow,Caffe,MLib 也开始使用大数据来实现人工智能的进化。在此之上的生态也开始蓬勃发展,包括 DataLake 之类的平台也开始出现。


本周的笔记脑图如下:


发布于: 2021 年 01 月 08 日阅读数: 13
用户头像

李日盛

关注

好架构=低成本+可实现 2018.01.22 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营第十二周笔记