十二周作业 & 总结
作业一:
分析如下 HiveQL,生成的 MapReduce 执行程序,map 函数输入是什么?输出是什么,reduce 函数输入是什么?输出是什么?
复制代码
复制代码
page_view 表和 user 表结构与数据示例如下
map 函数输入的是 key value。 key 是偏移量,value 是一行记录<userid,pageid>或<userid,age>
map 函数输出是 key value。key 是 userid, value 是 <表编号,pageid> 或 <表编号,age>
示意图如下:
reduce 函数输入是 key values。key 是 userid , values 是相同 userid 合并的 value 列表: <表编号,pageid> <表编号,age>
reduce 输出是不同表的 value 进行 jion 的结果
示意图如下:
作业二:
根据当周学习情况,完成一篇学习总结
大数据技术发展史
分布式文件系统 GFS
大数据分布式计算框架 MapReduce
NoSQL 数据库系统 BigTable
常用技术
大数据分析与大数据参考:Hive、Spark SQL
大数据挖掘与机器学习:Mahout、MLlib、TensorFlow
大数据批处理计算:MapReduce、Spark
大数据流处理计算:Storm、Flink、Spark Streaming
NoSQL 系统:HBase、Cassandra
大数据存储:HDFS
常用 RAID 技术
RAID0:提升写入速度
RAID1:增加备份功能
RAID10:提升写入速度+增加备份功能
RAID5:螺旋备份
RAID6:双螺旋备份
评论