架构师训练营 - 第十二周
作业一:
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
page_view 表和 user 表结构与数据示例如下
Map
输入:原始的两张表
输出:同一个表的 key(userid)-value(二元组,<表编号, age/pageid>)
Reduce:
输入:同一个 key 的 key(userid)-value(二元组,<表编号, age/pageid>)
输出:同一个 key 对应的 pageid, age
示意图:
作业二:
根据当周学习情况,完成一篇学习总结
大数据技术发展史
分布式文件系统 GFS
大数据分布式计算框架 MapReduce
NoSQL 数据库系统 BigTable
常用技术
大数据分析与大数据参考:Hive、Spark SQL
大数据挖掘与机器学习:Mahout、MLlib、TensorFlow
大数据批处理计算:MapReduce、Spark
大数据流处理计算:Storm、Flink、Spark Streaming
NoSQL 系统:HBase、Cassandra
大数据存储:HDFS
常用 RAID 技术
RAID0:提升写入速度
RAID1:增加备份功能
RAID10:提升写入速度+增加备份功能
RAID5:螺旋备份
RAID6:双螺旋备份
评论