架构师 0 期 Week12 总结
本周进入大数据环节。大数据的概念起源于微软研究员Jim Gary提出的第四范式,原本是描述新一代科学研究的形态,当时的提法是Data mining或者metadata analysis,多用于地球环境、天文、医疗、通信领域。谷歌的GFS、Mapreduce、Bigtable解决了大数据实践中的技术难点,即如何将有限的计算、存储资源组织成集群,实现PB、GB级数据的分析。其中的经典的存储框架是HDFS,为超大文件存储设计,一次写入多次读取,以数据流形式访问,不支持小文件和随机写入。数据处理框架是Mapreduce,将复杂的数据处理流程概化成map和reduce两种方式,通过分布式计算方式实现。使用与K-mean、贝叶斯、排序和SQL操作,不适于包含大量递归的操作,如Fibonacci数列生成。大数据资源调度通过Yarn实现,使得多个处理任务,多个数据引擎如Spark、Storm、Flink可以在一个集群中同时运行,彼此互不干扰。大数据的SQL操作可以通过Hive实现,Hive将SQL语句转化成Map和Reduce执行计划,让数据处理任务易于编写并能够自动优化。
评论 (1 条评论)